このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220703となっている論文です。

PDF登録状況(公開日: 20220703)

TitleAuthorsAbstract論文公表日・翻訳日
# 一次元導波路に結合した原子アンサンブルにおける集合励起の非指数減衰

Non-exponential decay of a collective excitation in an atomic ensemble coupled to a one-dimensional waveguide ( http://arxiv.org/abs/2006.14977v2 )

ライセンス: Link先を確認
Jan Kumlin, Kevin Kleinbeck, Nina Stiesdal, Hannes Busche, Sebastian Hofferberth, and Hans Peter B\"uchler(参考訳) 原子のアンサンブル間でコヒーレントに共有され、1次元の導波路に結合された単一励起のダイナミクスについて検討する。 物質と光場の間の結合は、初期崩壊速度が増大する超ラジアン状態のような集合現象を引き起こすが、原子間の励起のコヒーレントな交換も生じる。 この2つの現象の競合は励起の減衰に特徴的なダイナミクスを与え、多くの原子に対して期待される標準指数関数型ではなく代数的振る舞いを示す。 解析はまずカイラル導波路に対して行われ、そこで問題を解析的に解き、次に双方向導波路に拡張する。

We study the dynamics of a single excitation coherently shared amongst an ensemble of atoms and coupled to a one-dimensional wave guide. The coupling between the matter and the light field gives rise to collective phenomena such as superradiant states with an enhanced initial decay rate, but also to the coherent exchange of the excitation between the atoms. We find that the competition between the two phenomena provides a characteristic dynamics for the decay of the excitations, and remarkably exhibits an algebraic behavior, instead of the expected standard exponential one, for a large number of atoms. The analysis is first performed for a chiral waveguide, where the problem can be solved analytically, and then is extended to the bidirectional waveguide.
翻訳日:2023-05-12 11:41:52 公開日:2022-07-03
# ノイズコヒーレント人口トラッピング:ノイズ推定とキュービット状態生成への応用

Noisy Coherent Population Trapping: Applications to Noise Estimation and Qubit State Preparation ( http://arxiv.org/abs/2103.16656v2 )

ライセンス: Link先を確認
Arshag Danageozian, Ashe Miller, Pratik J. Barge, Narayan Bhusal, and Jonathan P. Dowling(参考訳) コヒーレント集団トラップ(Coherent population trapping)は、量子光学系におけるよく知られた量子現象である。 しかし、真空ノイズに加えて確率的な入浴が存在する場合、観測されたトラップはもはや完璧ではない。 ここでは、時間的に相関した古典的雑音の存在下での$\Lambda$システムの平衡を未知の減衰パラメータで記述した時間畳み込みのマスター方程式を導出する。 シミュレーションでは、減衰パラメータと発光スペクトルにおける特性ディップの深さとの1対1の対応を示し、観測されたスペクトルから未知のパラメータを推定できることを示した。 我々は,暗黒状態を用いた$\Lambda$系の量子状態初期化問題に適用し,その確率浴が所望の暗黒状態振幅の関数としてそのような初期化の忠実度にどのように影響するかを示す。 ラビ周波数の最適選択が可能であることを示す。

Coherent population trapping is a well-known quantum phenomenon in a driven $\Lambda$ system, with many applications across quantum optics. However, when a stochastic bath is present in addition to vacuum noise, the observed trapping is no longer perfect. Here we derive a time-convolutionless master equation describing the equilibration of the $\Lambda$ system in the presence of additional temporally correlated classical noise, with an unknown decay parameter. Our simulations show a one-to-one correspondence between the decay parameter and the depth of the characteristic dip in the photoluminescence spectrum, thereby enabling the unknown parameter to be estimated from the observed spectra. We apply our analysis to the problem of qubit state initialization in a $\Lambda$ system via dark states and show how the stochastic bath affects the fidelity of such initialization as a function of the desired dark-state amplitudes. We show that an optimum choice of Rabi frequencies is possible.
翻訳日:2023-04-06 03:22:11 公開日:2022-07-03
# 21世紀の平面電界放出理論とその真空破壊科学における役割

21st Century Planar Field Emission Theory and its Role in Vacuum Breakdown Science ( http://arxiv.org/abs/2107.08801v2 )

ライセンス: Link先を確認
Richard G. Forbes(参考訳) 電気分解を説明するため、電界電子放出(FE)は興味を持つメカニズムである。 2006年から2010年にかけては、基礎的な FE 理論に大きな発展があったが、これらは1960年代の考え方や(一部の文脈では)1920年代の FE 理論に関する考え方に基づいている技術 FE 領域において、まだ完全には一般的な考え方には入っていない。 本稿では, FE理論の歴史を概説し, 実験の解釈と物理現象の説明に影響を及ぼす限り, 近代的発展といくつかの関連トピックの概要について述べる。 論文は原則に重点を置いており、詳細が説明されている。 21st-Century" FE理論の活用について,いくつかの提案がなされている。 また, 導体の静電気に対するファインマンの処理の誤差が示され, CuO上層からの真空破壊の原因としてゼナートンネルが不可解であることが判明した。

For explaining electrical breakdown, field electron emission (FE) is a mechanism of interest. In the period 2006 to 2010 there were significant developments in basic FE theory, but these have not yet fully entered general thinking in technological FE areas, which are often still based on 1960s thinking or (in some contexts) 1920s thinking about FE theory. This paper outlines the history of FE theory and provides an overview of modern developments and of some related topics, in so far as these affect the interpretation of experiments and the explanation of physical phenomena. The paper concentrates on principles, with references given where details can be found. Some suggestions are made about moving to the use of "21st-Century" FE theory. In addition, an error in Feynman's treatment of the electrostatics of pointed conductors is displayed, and it is found that Zener tunneling is implausible as a primary cause of vacuum breakdown from a CuO overlayer.
翻訳日:2023-03-21 21:18:38 公開日:2022-07-03
# 室温非冷凍損失マイクロ波導波路を用いた高密度量子情報伝送

High-Fidelity Quantum Information Transmission Using a Room-Temperature Nonrefrigerated Lossy Microwave Waveguide ( http://arxiv.org/abs/2107.12504v7 )

ライセンス: Link先を確認
Montasir Qasymeh, Hichem Eleuch(参考訳) 量子マイクロ波伝送は、モジュラー超伝導量子コンピュータと分散量子ネットワークを実現する鍵である。 マイクロ波周波数スペクトル内に多数の不整合光子を熱的に生成する。 送信リンク(送信忠実度によって測定される)の入力における送信量子状態とソース生成量子状態との近接性は、非コヒーレント光子の存在により劣化する。 したがって、高忠実性量子マイクロ波伝送は、冷蔵なしでは実現不可能であると考えられてきた [3,4]。 本研究では、室温損失導波路を用いた高忠実性量子マイクロ波伝送法を提案する。 提案手法は,室温損失マイクロ波導波路により2つの極低温ノード(送信機と受信機)を接続する。 まず、低温前増幅を伝送前に実施する。 第2に、受信側では、導波管の出力ポート内に低温ループアンテナを配置し、導波管の外側に位置するLC高調波発振器に結合する。 ループアンテナは(信号とノイズ光子の両方を含む)量子マイクロ波場をlc高調波発振器を介して量子電圧に変換する。 受信機のループアンテナ検出器は、LC発振器を横切る誘導光子を広範囲に抑制するように設計されている。 有意なプリアンプゲインを提供することにより、信号透過性は保たれる。 提案手法により,高忠実度量子伝送(95%以上)を実現することができた。

Quantum microwave transmission is key to realizing modular superconducting quantum computers and distributed quantum networks. A large number of incoherent photons are thermally generated within the microwave frequency spectrum. The closeness of the transmitted quantum state to the source-generated quantum state at the input of the transmission link (measured by the transmission fidelity) degrades due to the presence of the incoherent photons. Hence, high-fidelity quantum microwave transmission has long been considered to be infeasible without refrigeration [3,4]. In this study, we propose a novel method for high-fidelity quantum microwave transmission using a room-temperature lossy waveguide. The proposed scheme consists of connecting two cryogenic nodes (i.e., a transmitter and a receiver) by the room-temperature lossy microwave waveguide. First, cryogenic preamplification is implemented prior to transmission. Second, at the receiver side, a cryogenic loop antenna is placed inside the output port of the waveguide and coupled to an LC harmonic oscillator located outside the waveguide. The loop antenna converts quantum microwave fields (which contain both signal and noise photons) to a quantum voltage across the coupled LC harmonic oscillator. The loop antenna detector at the receiver is designed to extensively suppress the induced photons across the LC oscillator. The signal transmittance is maintained intact by providing significant preamplification gain. Our calculations show that high-fidelity quantum transmission (i.e., more than 95%) is realized based on the proposed scheme for transmission distances reaching 100 m.
翻訳日:2023-03-20 21:11:47 公開日:2022-07-03
# オペレータサイズによる絡み合い分類

Entanglement Classification via Operator Size ( http://arxiv.org/abs/2111.07636v6 )

ライセンス: Link先を確認
Qi-Feng Wu(参考訳) 本研究では,多部交絡を分類する体系的手法を開発した。 演算子のサイズは、絡み合い構造と密接に関連していることを示す。 一般的な量子状態が与えられたとき、異なる大きさの作用素がその上に作用する一連の部分空間を定義する。 絡み合いに関する情報はこれらの部分空間にエンコードされる。 これらの部分空間の次元を係数として、私がエンタングルメント多項式と呼ぶ多項式を定義する。 絡み合い多項式は、量子状態から多項式へのモノイド準同型を誘導する。 準同型核上の商を取ることにより、交叉類から多項式への同型が得られる。 これは多項式分解によって絡み合いの構成要素を特徴づけて見つけられることを意味する。 2つの状態は、確率的局所演算と古典的通信の下で等価であれば、同じ絡み合い多項式を共有する。 交絡多項式を現実的に計算するために、交絡多項式の係数にランクが関係する再正規化状態と呼ばれる一連の状態を構築する。

In this work, a systematic approach to classifying multipartite entanglement is developed. I show that the operator size is closely related to the entanglement structure. Given a generic quantum state, I define a series of subspaces by operators of different sizes acting on it. The information about the entanglement is encoded into these subspaces. With the dimension of these subspaces as coefficients, I define a polynomial which I call the entanglement polynomial. The entanglement polynomial induces a monoid homomorphism from quantum states to polynomials. By taking the quotient over the kernel of the homomorphism, we obtain an isomorphism from entanglement classes to polynomials. It implies that we can characterize and find the building blocks of entanglement by polynomial factorization. Two states share the same entanglement polynomial if they are equivalent under the stochastic local operations and classical communication. To calculate the entanglement polynomial practically, I construct a series of states, called renormalized states, whose ranks are related to the coefficients of the entanglement polynomial.
翻訳日:2023-03-08 02:25:06 公開日:2022-07-03
# 量子暗号におけるストリームプライバシ増幅

Stream privacy amplification for quantum cryptography ( http://arxiv.org/abs/2111.14108v2 )

ライセンス: Link先を確認
Yizhi Huang, Xingjian Zhang, Xiongfeng Ma(参考訳) プライバシーの増幅は、量子通信のセキュリティを保証するための重要なステップである。 既存のセキュリティ証明では、プライバシの増幅のために大量の生鍵ビットを蓄積する必要がある。 これは古典暗号におけるブロック暗号と似ており、ブロック全体がプライバシーの増幅の前に蓄積されなければならないため、最後の鍵生成を遅らせる。 さらに、情報和解後の残余エラーはブロック全体を破損させる。 量子誤り訂正に基づくセキュリティ証明を変更することで,古典的なストリーム暗号に類似したストリームプライバシ増幅方式を開発した。 このスキームは最終キーをストリーム形式で出力することができ、エラーの拡散を防ぎ、情報和解前にプライバシーを増幅することができる。 ストリームスキームは、信頼できるリレー量子ネットワークのセキュリティを強化するのにも役立つ。 セキュリティ解析におけるストリーム暗号と量子誤り訂正の関連に着想を得て,古典的暗号アルゴリズムのセキュリティを研究する汎用的情報理論ツールの開発を行った。

Privacy amplification is the key step to guarantee the security of quantum communication. The existing security proofs require accumulating a large number of raw key bits for privacy amplification. This is similar to block ciphers in classical cryptography that would delay the final key generation since an entire block must be accumulated before privacy amplification. Moreover, any leftover errors after information reconciliation would corrupt the entire block. By modifying the security proof based on quantum error correction, we develop a stream privacy amplification scheme, which resembles the classical stream cipher. This scheme can output the final key in a stream way, prevent error from spreading, and hence can put privacy amplification before information reconciliation. The stream scheme can also help to enhance the security of trusted-relay quantum networks. Inspired by the connection between stream ciphers and quantum error correction in our security analysis, we further develop a generic information-theoretic tool to study the security of classical encryption algorithms.
翻訳日:2023-03-06 11:59:33 公開日:2022-07-03
# 200周波導波路原子干渉計における1秒の尋問時間

One second interrogation time in a 200 round-trip waveguide atom interferometer ( http://arxiv.org/abs/2201.11888v3 )

ライセンス: Link先を確認
Hyosub Kim, Katarzyna Krzyzanowska, K. C. Henderson, C. Ryu, Eddy Timmermans, and Malcolm Boshier(参考訳) 我々は、原子が1つの大きな単一軌道ではなく200個の小振幅のラウンドトリップを作る多重ループ誘導原子干渉計を報告した。 この手法は、超低温39Kガスと磁気フェシュバッハ共鳴を用いて、ゼロにわたってs波の散乱長を調整し、低温衝突による原子の損失を著しく低減することができる。 この方式は騒音環境に対して弾力性があり、0.9sの尋問時間を振動ノイズの分離やキャンセルなしに達成する。 量子ロックイン増幅(quantum lock-in amplification)の形式は、高感度で局所ポテンシャルを測定するためにデバイスで使用することができる。 この手法を用いて, 39K基底状態の動的偏光率を1064nmで測定した。 干渉計は、回転検知のためのコンパクトな多重ループサニャック原子干渉計を構築するための有用なアプローチでもある。

We report a multiple-loop guided atom interferometer in which the atoms make 200 small-amplitude roundtrips, instead of one large single orbit. The approach is enabled by using ultracold 39K gas and a magnetic Feshbach resonance that can tune the s-wave scattering length across zero to significantly reduce the atom loss from cold collisions. This scheme is resilient against noisy environments, achieving 0.9 s interrogation time without any vibration noise isolation or cancellation. A form of quantum lock-in amplification can be used with the device to measure localized potentials with high sensitivity. We used this technique to measure the dynamic polarizability of the 39K ground state at 1064 nm. The interferometer may also be a useful approach to building a compact multiple-loop Sagnac atom interferometer for rotation sensing.
翻訳日:2023-02-27 16:18:46 公開日:2022-07-03
# 金融サービス業における計算可能契約

Computable Contracts in the Financial Services Industry ( http://arxiv.org/abs/2208.04685v1 )

ライセンス: Link先を確認
Vinay K Chaudhri(参考訳) 計算可能な契約は、コンピュータが読み、理解し、実行できる契約である。 金融サービス業界は、住宅ローン契約、デリバティブ契約、仲裁契約など、広範囲に契約を利用している。 これらの契約のほとんどはテキスト文書として存在し、自動クエリ、実行、解析が困難になる。 本稿では,金融サービス産業における計算可能な契約の利用が,顧客エクスペリエンスの大幅な向上,法的な取引コストの削減,法律の変更への対応の容易化,契約に影響を及ぼす意思決定の枠組みの整備につながると論じる。 単純な支払い契約を用いて、契約定義言語を説明し、いくつかのユースケースをスケッチし、金融サービス業界への利益について論じる。

A computable contract is a contract that a computer can read, understand and execute. The financial services industry makes extensive use of contracts, for example, mortgage agreements, derivatives contracts, arbitration agreements, etc. Most of these contracts exist as text documents, making it difficult to automatically query, execute and analyze them. In this vision paper, we argue that the use of computable contracts in the financial services industry will lead to substantial improvements in customer experience, reductions in the cost of doing legal transactions, make it easier to respond to changing laws, and provide a much better framework for making decisions impacted by contracts. Using a simple payment agreement, we illustrate a Contract Definition Language, sketch several use cases and discuss their benefits to the financial services industry.
翻訳日:2023-02-19 10:25:20 公開日:2022-07-03
# デジタル時代の集合記憶

Collective Memory in the Digital Age ( http://arxiv.org/abs/2207.01042v1 )

ライセンス: Link先を確認
Taha Yasseri and Patrick Gildersleve and Lea David(参考訳) 社会、特に情報とコミュニケーション技術のデジタルトランスフォーメーションは、情報の生成、コミュニケーション、獲得の方法に革命をもたらした。 社会の中核的で統一的な力としての集合記憶は、デジタルトランスフォーメーションによって革新された多くの社会的概念の中で例外ではない。 本章では「デジタル化された集合記憶」と「デジタル時代の集合記憶」を区別する。 これら2つの主要な概念の議論に加えて、デジタルツールとトレースデータが、デジタル空間の内外に存在する集合記憶の研究にどのように扉を開けるかについて議論する。

The digital transformation of our societies and in particular information and communication technologies have revolutionized how we generate, communicate, and acquire information. Collective memory as a core and unifying force in our societies has not been an exception among many societal concepts which have been revolutionized through digital transformation. In this chapter, we have distinguished between "the digitalized collective memory" and "collective memory in the digital age". In addition to discussing these two main concepts, we discuss how digital tools and trace data can open doorways into the study of collective memory that is formed inside and outside of the digital space.
翻訳日:2023-02-19 09:35:59 公開日:2022-07-03
# 「みんな過敏すぎる」--辺境社会に対する偏見が認識論的信念になるかを理解するための計算倫理的アプローチ

"Y'all are just too sensitive": A computational ethics approach to understanding how prejudice against marginalized communities becomes epistemic belief ( http://arxiv.org/abs/2207.01017v1 )

ライセンス: Link先を確認
Johannah Sprinz(参考訳) 辺境の地域社会のメンバーは、無害なマイクロ攻撃行為を受けるとしばしば「過敏すぎる」と非難される。 本論では, 個別に拘束された信念に基づいて, マイクロアグレッションの行為を犯し, 相互作用しうる, 疎外化・非マルジナイズドエージェントからなる模擬社会について考察する。 マイクロアグレッシブを目撃するエージェントは、そのようなマイクロアグレッシブを軽視し、無視し、または非難し、結果として加害者の有罪判決に影響を及ぼす可能性がある。 NetLogoでプロトタイプモデルが実装され、アプリケーションの可能性について簡単に議論されている。

Members of marginalized communities are often accused of being "too sensitive" when subjected to supposedly harmless acts of microaggression. This paper explores a simulated society consisting of marginalized and non-marginalized agents who interact and may, based on their individually held convictions, commit acts of microaggressions. Agents witnessing a microaggression might condone, ignore or condemn such microaggressions, thus potentially influencing a perpetrator's conviction. A prototype model has been implemented in NetLogo, and possible applications are briefly discussed.
翻訳日:2023-02-19 09:35:51 公開日:2022-07-03
# ワンオフイベント? ハッカソンコードの作成と再利用に関する実証的研究

One-off Events? An Empirical Study of Hackathon Code Creation and Reuse ( http://arxiv.org/abs/2207.01015v1 )

ライセンス: Link先を確認
Ahmed Samir Imam Mahmoud, Tapajit Dey, Alexander Nolte, Audris Mockus, James D. Herbsleb(参考訳) 背景:ハッカソンは、チームがプロジェクトとコラボレーションし、ソフトウェアプロトタイプを開発するための人気のあるイベントになっています。 既存の研究のほとんどは、ハッカソンコードの進化に限定したイベント中のアクティビティに焦点を当てている。 具体的には、ハッカソンチームがどの程度の頻度で既存のコードを再利用しているか、どの程度の新しいコードが開発されているか、そのコードがその後再利用されたか、そして再利用に影響する要因についてです。 方法:devpostから22,183件のハッカソンプロジェクトに関する情報を収集し,関連するコードブロブ,著者,プロジェクト特性,オリジナル作者,コード作成時間,言語,コードの世界からサイズ情報を得た。 私たちは、ハッカソン中に作成されたblobを含むすべてのコミットを特定し、それらのコミットを含むすべてのプロジェクトを特定して、コードblobの再利用を追跡しました。 また、ハッカソンのコードの進化をより深く理解するために、コードの再利用、再利用されていないハッカソンの参加者、ハッカソンのコードを再利用した開発者に対して、一連の調査を実施しました。 結果:ハッカソンリポジトリのコードブロブの9.14%、ハッカソンのコードライン(LOC)の8%が作成され、ハッカソンコードの約3分の1がブロブカウントとLOCによって他のプロジェクトで再利用される。 ハッカソンにおける関連技術の数と参加者数は再利用確率を増加させる。 結論: 私たちの研究の結果は,ハッカソンが共通知識が指示する「ワンオフ」イベントであるとは限らないことを示し,この領域におけるさらなる研究の出発点として機能することを示した。

Background: Hackathons have become popular events for teams to collaborate on projects and develop software prototypes. Most existing research focuses on activities during an event with limited attention to the evolution of the hackathon code. Aim: We aim to understand the evolution of code used in and created during hackathon events, with a particular focus on the code blobs, specifically, how frequently hackathon teams reuse pre-existing code, how much new code they develop, if that code gets reused afterward, and what factors affect reuse. Method: We collected information about 22,183 hackathon projects from DevPost and obtained related code blobs, authors, project characteristics, original author, code creation time, language, and size information from World of Code. We tracked the reuse of code blobs by identifying all commits containing blobs created during hackathons and identifying all projects that contain those commits. We also conducted a series of surveys in order to gain a deeper understanding of hackathon code evolution that we sent out to hackathon participants whose code was reused, whose code was not reused, and developers who reused some hackathon code. Result: 9.14% of the code blobs in hackathon repositories and 8% of the lines of code (LOC) are created during hackathons and around a third of the hackathon code gets reused in other projects by both blob count and LOC. The number of associated technologies and the number of participants in hackathons increase the reuse probability. Conclusion: The results of our study demonstrate hackathons are not always "one-off" events as common knowledge dictates and they can serve as a starting point for further studies in this area.
翻訳日:2023-02-19 09:35:32 公開日:2022-07-03
# 非エルミート系の不確かさ関係

Uncertainty Relation for Non-Hermitian Systems ( http://arxiv.org/abs/2206.02844v2 )

ライセンス: Link先を確認
Namrata Shukla, Ranjan Modak, and Bhabani Prasad Mandal(参考訳) ロバートソンのハイゼンベルクの不確実性関係の形式化されたバージョンは、興味のある状態とエルミート作用素である2つの非互換な可観測物を含んでいる。 我々は、より一般的な「よい可観測性」条件を導入することにより、pt不変な非エルミート量子系に対する不確実性関係を構築する。 我々の構成はPT対称相に限らず、PT破壊相にも有効である。 通常の量子論とは対照的に、よい可観測性はそのような系の非エルミート作用素でもある。 非エルミート的ハミルトニアン自身は PT-対称相において良好な可観測性を持つが、壊れた相では成り立たない。 したがって、任意の有限次元系のPT相転移を検出する診断ツールとしてこの事実を用いることができる。

Robertson's formalized version of the Heisenberg uncertainty relation contains a state of interest and two incompatible observables that are Hermitian operators. We construct uncertainty relation for PT-invariant non-Hermitian quantum systems by introducing a more general condition of "good observable". Our construction is not limited to the PT-symmetric phase but also valid in the PT-broken phase. In contrast to the usual quantum theory, a good observable can also be a non-Hermitian operator for such systems. We show that the non-Hermitian Hamiltonian itself qualifies as a good observable in the PT-symmetric phase, but not in the broken phase. Consequently, this fact can be used as a diagnostic tool to detect the PT phase transition in any arbitrary finite-dimensional system.
翻訳日:2023-02-10 09:13:42 公開日:2022-07-03
# Stochastic de Broglie-Bohm-Bell 量子力学における量子平衡

Quantum Equilibrium in Stochastic de Broglie-Bohm-Bell Quantum Mechanics ( http://arxiv.org/abs/2207.01008v1 )

ライセンス: Link先を確認
Jeroen C. Vink(参考訳) 本稿では,量子力学のブロイ=ボーム=ベル確率論における量子平衡への動的緩和について検討する。 時間依存確率分布は、ゆっくりと変化する遷移行列を持つマルコフ過程のように計算される。 Numerical simulations, supported by exact results for the large-time behavior of sequences of (slowly varying) transition matrices, confirm previous findings that indicate that de Broglie-Bohm-Bell dynamics allows an arbitrary initial probability distribution to relax to quantum equilibrium; i.e., there is no need to make the ad-hoc assumption that the initial distribution of particle locations has to be identical to the initial probability distribution prescribed by the system's initial wave function. さらに, 本論文では, 基礎となる離散時空上で自然に定式化できるベルの定式化の本質的確率的性質は, 粗粒化やその定式化における修正を必要とせずに, 量子平衡に対する動的緩和を保証するのに十分であることが示唆された。

This paper investigates dynamical relaxation to quantum equilibrium in the stochastic de Broglie-Bohm-Bell formulation of quantum mechanics. The time-dependent probability distributions are computed as in a Markov process with slowly varying transition matrices. Numerical simulations, supported by exact results for the large-time behavior of sequences of (slowly varying) transition matrices, confirm previous findings that indicate that de Broglie-Bohm-Bell dynamics allows an arbitrary initial probability distribution to relax to quantum equilibrium; i.e., there is no need to make the ad-hoc assumption that the initial distribution of particle locations has to be identical to the initial probability distribution prescribed by the system's initial wave function. The results presented in this paper moreover suggest that the intrinsically stochastic nature of Bell's formulation, which is arguable most naturally formulated on an underlying discrete space-time, is sufficient to ensure dynamical relaxation to quantum equilibrium for a large class of quantum systems without the need to introduce coarse-graining or any other modification in the formulation.
翻訳日:2023-02-06 21:29:07 公開日:2022-07-03
# ScaleQC: 量子プロセッサと古典プロセッサのハイブリッド計算のためのスケーラブルなフレームワーク

ScaleQC: A Scalable Framework for Hybrid Computation on Quantum and Classical Processors ( http://arxiv.org/abs/2207.00933v1 )

ライセンス: Link先を確認
Wei Tang, Margaret Martonosi(参考訳) 量子処理ユニット(QPU)は、量子ビットの要求量と品質要件を満たし、有用なスケールで問題の正確な結果を生成する必要がある。 さらに、量子回路の古典的なシミュレーションは一般にスケールしない。 代わりに、量子回路切断技術は、より強力なQPUを実現するために、大きな量子回路を複数の小さなサブ回路に切断して分散する。 しかし、カットから生じる古典的な後処理は、ランタイムとメモリのボトルネックをもたらす。 当社のツールであるScaleQCは,(1)大規模量子回路の解状態を高速に検出する量子状態マージフレームワーク,(2)低消費電力QPUに適合するように複雑な量子回路を切断する自動解法,(3)古典的オーバーヘッドを最小限に抑えるテンソルネットワークベースの後処理など,新たなアルゴリズム技術を開発することでボトルネックに対処する。 我々の実験は、純粋に量子プラットフォームに対するQPU要求の利点と、1000キュービットまでのベンチマークのための純粋に古典的なプラットフォームに対する実行時の利点の両方を示している。

Quantum processing unit (QPU) has to satisfy highly demanding quantity and quality requirements on its qubits to produce accurate results for problems at useful scales. Furthermore, classical simulations of quantum circuits generally do not scale. Instead, quantum circuit cutting techniques cut and distribute a large quantum circuit into multiple smaller subcircuits feasible for less powerful QPUs. However, the classical post-processing incurred from the cutting introduces runtime and memory bottlenecks. Our tool, called ScaleQC, addresses the bottlenecks by developing novel algorithmic techniques including (1) a quantum states merging framework that quickly locates the solution states of large quantum circuits; (2) an automatic solver that cuts complex quantum circuits to fit on less powerful QPUs; and (3) a tensor network based post-processing that minimizes the classical overhead. Our experiments demonstrate both QPU requirement advantages over the purely quantum platforms, and runtime advantages over the purely classical platforms for benchmarks up to 1000 qubits.
翻訳日:2023-02-06 21:28:01 公開日:2022-07-03
# 低解像度顔認識のためのマルチスケールID保存画像変換ネットワーク

Multi Scale Identity-Preserving Image-to-Image Translation Network for Low-Resolution Face Recognition ( http://arxiv.org/abs/2010.12249v4 )

ライセンス: Link先を確認
Vahid Reza Khazaie and Nicky Bayat and Yalda Mohsenzadeh(参考訳) 最先端のディープニューラルネットワークモデルは、制御された高解像度顔画像の顔認識精度がほぼ完璧に向上した。 しかし、非常に低解像度の顔画像でテストすると、その性能は大幅に劣化する。 これは、低解像度のプローブ画像が高解像度のギャラリー画像とマッチする監視システムにおいて特に重要である。 超高解像度技術は、低解像度の対向画像から高解像度の顔画像を生成することを目的としている。 視覚的に魅力的な画像を再構成できるが、識別関連情報は保存されない。 本稿では、アイデンティティ関連情報を保存しながら、高解像度の顔に超解像を超解像できる、アイデンティティ保存型エンドツーエンド画像変換深層ニューラルネットワークを提案する。 我々は、対応する層間で対称な収縮パスを持つ非常に深い畳み込みエンコーダ・デコーダネットワークを訓練することでこれを達成した。 このネットワークは、マルチスケールの低解像度条件で、再構成とアイデンティティ保存損失の組み合わせで訓練された。 提案手法の大規模定量的評価により,自然および人工の低解像度の顔データセットや未知のアイデンティティに対して,競合する超解像および低解像度の顔認識法よりも優れていた。

State-of-the-art deep neural network models have reached near perfect face recognition accuracy rates on controlled high-resolution face images. However, their performance is drastically degraded when they are tested with very low-resolution face images. This is particularly critical in surveillance systems, where a low-resolution probe image is to be matched with high-resolution gallery images. super-resolution techniques aim at producing high-resolution face images from low-resolution counterparts. While they are capable of reconstructing images that are visually appealing, the identity-related information is not preserved. Here, we propose an identity-preserving end-to-end image-to-image translation deep neural network which is capable of super-resolving very low-resolution faces to their high-resolution counterparts while preserving identity-related information. We achieved this by training a very deep convolutional encoder-decoder network with a symmetric contracting path between corresponding layers. This network was trained with a combination of a reconstruction and an identity-preserving loss, on multi-scale low-resolution conditions. Extensive quantitative evaluations of our proposed model demonstrated that it outperforms competing super-resolution and low-resolution face recognition methods on natural and artificial low-resolution face data sets and even unseen identities.
翻訳日:2022-10-03 23:09:08 公開日:2022-07-03
# Chimera:FPGA高レベル合成のためのハイブリッド機械学習駆動多目的設計空間探索ツール

Chimera: A Hybrid Machine Learning Driven Multi-Objective Design Space Exploration Tool for FPGA High-Level Synthesis ( http://arxiv.org/abs/2207.07917v1 )

ライセンス: Link先を確認
Mang Yu, Sitao Huang and Deming Chen(参考訳) 近年,FPGAの柔軟性により,フィールドプログラマブルゲートアレイ(FPGA)に基づくハードウェアアクセラレータが広く採用されている。 しかし、柔軟性が高いと設計と最適化が困難になる。 従来、これらのアクセラレータは低レベルのハードウェア記述言語で設計されており、複雑な振る舞いを持つ大きな設計を作成することは極めて難しい。 そのため、FPGAのハードウェア設計を簡略化するために、HLSツールが開発された。 ユーザーは高レベル言語を使ってハードウェア設計を作成でき、様々な最適化ディレクティブを提供することで、合成されたハードウェアの性能を向上させることができる。 しかし、高いパフォーマンスを達成するためにこれらの最適化を適用するのには時間がかかる。 そこで本研究では,HLS最適化ディレクティブを応用した自動設計空間探索ツールChimeraについて述べる。 アクティブラーニング、進化アルゴリズム、トンプソンサンプリングをシームレスに統合した、新しい多目的探索手法を採用しており、探索中に少数の設計点しか評価されていないパレート曲線上で最適化された設計の集合を見つけることができる。 実験では、24時間以内にこのハイブリッド手法は、ロゼッタベンチマークスイートのエキスパートhlsユーザが作成した高度に最適化されたハンドチューニング設計と同等または優れたパフォーマンスを持つ設計ポイントを探索した。 極端な点の発見に加えて、エルボーポイントがFlip-Flopリソースの最大26倍の時間を、無視できないほど高いレイテンシで節約できる、Paretoフロンティアも探索している。

In recent years, hardware accelerators based on field-programmable gate arrays (FPGAs) have been widely adopted, thanks to FPGAs' extraordinary flexibility. However, with the high flexibility comes the difficulty in design and optimization. Conventionally, these accelerators are designed with low-level hardware descriptive languages, which means creating large designs with complex behavior is extremely difficult. Therefore, high-level synthesis (HLS) tools were created to simplify hardware designs for FPGAs. They enable the user to create hardware designs using high-level languages and provide various optimization directives to help to improve the performance of the synthesized hardware. However, applying these optimizations to achieve high performance is time-consuming and usually requires expert knowledge. To address this difficulty, we present an automated design space exploration tool for applying HLS optimization directives, called Chimera, which significantly reduces the human effort and expertise needed for creating high-performance HLS designs. It utilizes a novel multi-objective exploration method that seamlessly integrates active learning, evolutionary algorithm, and Thompson sampling, making it capable of finding a set of optimized designs on a Pareto curve with only a small number of design points evaluated during the exploration. In the experiments, in less than 24 hours, this hybrid method explored design points that have the same or superior performance compared to highly optimized hand-tuned designs created by expert HLS users from the Rosetta benchmark suite. In addition to discovering the extreme points, it also explores a Pareto frontier, where the elbow point can potentially save up to 26\% of Flip-Flop resource with negligibly higher latency.
翻訳日:2022-07-24 11:43:48 公開日:2022-07-03
# (参考訳) Hashtags を用いた COVID-19 関連オープンソースプロジェクトの目的と技術応用

Using Hashtags to Analyze Purpose and Technology Application of Open-Source Project Related to COVID-19 ( http://arxiv.org/abs/2207.06219v1 )

ライセンス: CC BY 4.0
Liang Tian, Chengzhi Zhang(参考訳) 新型コロナウイルス(covid-19)は、すべての人間の生活に大きな影響を与えてきた。 新興技術はパンデミックとの戦いに多大な貢献をした。 技術の適用に関する広範なレビューは、将来の研究と技術開発を促進し、将来のパンデミックに対するより良いソリューションを提供するのに役立つだろう。 すでに実施されている学術コミュニティの広範な調査とは対照的に,本研究ではITコミュニティの実践を探求する。 研究対象としてgithubを用いて,パンデミック時に提出されたプロジェクトの主な機能を分析した。 本研究では,異なる機能を持つプロジェクトの動向と機能と技術の関係について検討する。 調査結果は、githubコミュニティにおけるさまざまな機能を持つプロジェクト、すなわちアプリケーションの半数以上を占めるプロジェクトの数が不均衡であることを示している。 対照的に、他のデータ分析やaiプロジェクトは少ないシェアを占めている。 これは、実践コミュニティのプロジェクトがより成熟した技術を使用しているのに対し、最先端技術に重点を置く学術コミュニティの調査とは大きく異なる。 開発者の自発的な行動は組織を欠き、ニーズを目標にすることが困難になる可能性がある。

COVID-19 has had a profound impact on the lives of all human beings. Emerging technologies have made significant contributions to the fight against the pandemic. An extensive review of the application of technology will help facilitate future research and technology development to provide better solutions for future pandemics. In contrast to the extensive surveys of academic communities that have already been conducted, this study explores the IT community of practice. Using GitHub as the study target, we analyzed the main functionalities of the projects submitted during the pandemic. This study examines trends in projects with different functionalities and the relationship between functionalities and technologies. The study results show an imbalance in the number of projects with varying functionalities in the GitHub community, i.e., applications account for more than half of the projects. In contrast, other data analysis and AI projects account for a smaller share. This differs significantly from the survey of the academic community, where the findings focus more on cutting-edge technologies while projects in the community of practice use more mature technologies. The spontaneous behavior of developers may lack organization and make it challenging to target needs.
翻訳日:2022-07-17 18:46:56 公開日:2022-07-03
# (参考訳) ニューラルネットワークとオーバーサンプリング法を用いた分類器を提供するjob

Job Offers Classifier using Neural Networks and Oversampling Methods ( http://arxiv.org/abs/2207.06223v1 )

ライセンス: CC BY 4.0
Germ\'an Ortiz, Gemma Bel Enguix, Helena G\'omez-Adorno, Iqra Ameer, Grigori Sidorov(参考訳) 政策と研究は、個人の仕事に対するより良い理解から恩恵を受ける。 しかし、労働市場の活動を表すために大規模行政記録がますます採用されていくにつれ、雇用を分類する新たな自動化方法が求められている。 メキシコ最大のジョブバンクであるBumeran https://www.bumeran.com.mx/ 最後に訪れた: 19-01-2022。 我々は,Support Vector Machines, Naive-Bayes, Logistic Regression, Random Forest, Deep Learning Long-Short Term Memory (LSTM)といった機械学習アルゴリズムを適用した。 これらのアルゴリズムを用いて、販売、管理、コールセンター、技術、貿易、人的資源、物流、マーケティング、健康、ガストロノミー、ファイナンシング、秘書、生産、エンジニアリング、教育、デザイン、法律、建設、保険、通信、コミュニケーション、外国貿易、鉱業の23つのクラスのうちの1つにジョブオファーを分類するために、マルチクラスモデルを訓練した。 smote,gemetry-smote,adasyn合成オーバーサンプリングアルゴリズムを用いて不均衡クラスを処理した。 提案する畳み込みニューラルネットワークアーキテクチャは,gemetry-smoteアルゴリズムを適用した場合に最も良い結果を得た。

Both policy and research benefit from a better understanding of individuals' jobs. However, as large-scale administrative records are increasingly employed to represent labor market activity, new automatic methods to classify jobs will become necessary. We developed an automatic job offers classifier using a dataset collected from the largest job bank of Mexico known as Bumeran https://www.bumeran.com.mx/ Last visited: 19-01-2022.. We applied machine learning algorithms such as Support Vector Machines, Naive-Bayes, Logistic Regression, Random Forest, and deep learning Long-Short Term Memory (LSTM). Using these algorithms, we trained multi-class models to classify job offers in one of the 23 classes (not uniformly distributed): Sales, Administration, Call Center, Technology, Trades, Human Resources, Logistics, Marketing, Health, Gastronomy, Financing, Secretary, Production, Engineering, Education, Design, Legal, Construction, Insurance, Communication, Management, Foreign Trade, and Mining. We used the SMOTE, Geometric-SMOTE, and ADASYN synthetic oversampling algorithms to handle imbalanced classes. The proposed convolutional neural network architecture achieved the best results when applied the Geometric-SMOTE algorithm.
翻訳日:2022-07-17 18:45:59 公開日:2022-07-03
# (参考訳) 深層学習モデルを用いた乳癌診断支援のための病理組織像分類

Histopathological Imaging Classification of Breast Tissue for Cancer Diagnosis Support Using Deep Learning Models ( http://arxiv.org/abs/2207.05057v1 )

ライセンス: CC BY 4.0
Tat-Bao-Thien Nguyen, Minh-Vuong Ngo, Van-Phong Nguyen(参考訳) いくつかの画像診断技術によれば、ヘマトキシリンとエオシンと呼ばれる乳腺病理像は、がん診断の金の標準であると考えられている。 病理画像(wsi)を複数のパッチに分割するというアイデアに基づいて,iciar 2018 grand challengeから収集した400イメージのデータセット上の拡張データに対して,各スライドステップを50%オーバーラップして,左右にスライドして上下にスライドするウィンドウ[512,512]を使用した。 次に、EffficientNetモデルを用いて、乳がんの病理像を正常、良性、癌、浸潤癌の4つのタイプに分類し、同定する。 EffficientNetモデルは、高解像度の画像のトレーニングに適した、固定されたスケーリング要素のセットで、ネットワークの幅、深さ、解像度を均一にスケーリングする、最近開発されたモデルである。 また,本モデルでは,トレーニングセットで98%,評価セットで93%の精度で,比較的競争力のある分類効率が得られた。

According to some medical imaging techniques, breast histopathology images called Hematoxylin and Eosin are considered as the gold standard for cancer diagnoses. Based on the idea of dividing the pathologic image (WSI) into multiple patches, we used the window [512,512] sliding from left to right and sliding from top to bottom, each sliding step overlapping by 50% to augmented data on a dataset of 400 images which were gathered from the ICIAR 2018 Grand Challenge. Then use the EffficientNet model to classify and identify the histopathological images of breast cancer into 4 types: Normal, Benign, Carcinoma, Invasive Carcinoma. The EffficientNet model is a recently developed model that uniformly scales the width, depth, and resolution of the network with a set of fixed scaling factors that are well suited for training images with high resolution. And the results of this model give a rather competitive classification efficiency, achieving 98% accuracy on the training set and 93% on the evaluation set.
翻訳日:2022-07-17 18:35:29 公開日:2022-07-03
# 協調型レコメンデーションシステムのためのグラフ畳み込みネットワーク

Collaboration-Aware Graph Convolutional Networks for Recommendation Systems ( http://arxiv.org/abs/2207.06221v1 )

ライセンス: Link先を確認
Yu Wang, Yuying Zhao, Yi Zhang, Tyler Derr(参考訳) 埋め込みプロセスに暗黙的に協調効果を注入するメッセージパッシングによって、グラフニューラルネットワーク(gnns)が推奨システムでうまく採用されている。 それでも、レコメンデーションにおける既存のメッセージパッシング機構のほとんどは、レコメンデーションを調整せずにGNNから直接継承される。 GNNを簡素化してレコメンデーションの性能/効率を向上させる努力は行われているが、メッセージパッシングが協調効果をどのように捉え、捕獲効果がアイテムよりもユーザの好みを予測するのに役立つかを包括的に調査する研究は行われていない。 そこで本研究では,GNNにおけるメッセージパッシングによるコラボレーティブ効果の解明と,レコメンデーションのためにメッセージパッシングをカスタマイズするための新たな洞察の開発を目的としている。 まず,理論上,メッセージパッシングがユーザの好みを予測する上での協調効果をどのように捉え,活用するかを解析する。 次に,ユーザの好みの予測に寄与するかどうかを判断するために,ノードの特定の近傍と周辺集合の他の部分との相互作用レベルを測定する推奨指向トポロジーメトリックであるcommon interactioned ratio(cir)を提案する。 光GCNフレームワーク上に拡張され、コラボレーション・アウェア・グラフ・コンボリューション(CIR)を介して隣人の情報を選択的に渡すことができる、推奨調整型GNN(Augmented Collaboration-Aware Graph Convolutional Network, CAGCN*)を提案する。 6つのベンチマークデータセットの実験結果は、CAGCN*が最も代表的なGNNベースのレコメンデーションモデルであるLightGCNをRecall@20で9%上回り、79%以上のスピードアップを達成したことを示している。 私たちのコードはhttps://github.com/yuwvandy/cagcnで公開されています。

By virtue of the message-passing that implicitly injects collaborative effect into the embedding process, Graph Neural Networks (GNNs) have been successfully adopted in recommendation systems. Nevertheless, most of existing message-passing mechanisms in recommendation are directly inherited from GNNs without any recommendation-tailored modification. Although some efforts have been made towards simplifying GNNs to improve the performance/efficiency of recommendation, no study has comprehensively scrutinized how message-passing captures collaborative effect and whether the captured effect would benefit the prediction of user preferences over items. Therefore, in this work we aim to demystify the collaborative effect captured by message-passing in GNNs and develop new insights towards customizing message-passing for recommendation. First, we theoretically analyze how message-passing captures and leverages the collaborative effect in predicting user preferences. Then, to determine whether the captured collaborative effect would benefit the prediction of user preferences, we propose a recommendation-oriented topological metric, Common Interacted Ratio (CIR), which measures the level of interaction between a specific neighbor of a node with the rest of its neighborhood set. Inspired by our theoretical and empirical analysis, we propose a recommendation-tailored GNN, Augmented Collaboration-Aware Graph Convolutional Network (CAGCN*), that extends upon the LightGCN framework and is able to selectively pass information of neighbors based on their CIR via the Collaboration-Aware Graph Convolution. Experimental results on six benchmark datasets show that CAGCN* outperforms the most representative GNN-based recommendation model, LightGCN, by 9% in Recall@20 and also achieves more than 79% speedup. Our code is publicly available at https://github.com/YuWVandy/CAGCN.
翻訳日:2022-07-17 17:11:48 公開日:2022-07-03
# (参考訳) 部分観測環境における無線チャネル予測

Wireless Channel Prediction in Partially Observed Environments ( http://arxiv.org/abs/2207.00934v1 )

ライセンス: CC BY 4.0
Mingsheng Yin, Yaqi Hu, Tommy Azzino, Seongjoon Kang, Marco Mezzavilla, Sundeep Rangan(参考訳) サイト固有の無線周波数(RF)伝搬予測は、カメラやLIDARセンサーなどの視覚データから構築されたモデルにますます依存している。 動的設定で操作する場合、環境は部分的にしか観察できない。 本稿では,周辺環境の部分的観測から統計的チャネルモデルを抽出する手法を提案する。 部分的な環境下でレイトレーシングを行い、学習した予測器を用いて部分的なレイトレーシング結果から抽出した特徴からチャネルとその不確かさを推定する単純なヒューリスティックアルゴリズムを提案する。 提案手法は, 部分的な情報がない場合と, 環境が完全に観測された場合の完全決定論的モデルとを補間できることを示した。 提案手法は,探索された領域の量に応じて,伝播予測の不確実性の度合いを把握できる。 本手法は, 最先端ナビゲーション, 同時ローカライゼーション・マッピング (SLAM) , コンピュータビジョン手法を用いて構築された詳細なモデルを用いて, 室内マップ上にシミュレーションしたロボットナビゲーションアプリケーションで実証される。

Site-specific radio frequency (RF) propagation prediction increasingly relies on models built from visual data such as cameras and LIDAR sensors. When operating in dynamic settings, the environment may only be partially observed. This paper introduces a method to extract statistical channel models, given partial observations of the surrounding environment. We propose a simple heuristic algorithm that performs ray tracing on the partial environment and then uses machine-learning trained predictors to estimate the channel and its uncertainty from features extracted from the partial ray tracing results. It is shown that the proposed method can interpolate between fully statistical models when no partial information is available and fully deterministic models when the environment is completely observed. The method can also capture the degree of uncertainty of the propagation predictions depending on the amount of region that has been explored. The methodology is demonstrated in a robotic navigation application simulated on a set of indoor maps with detailed models constructed using state-of-the-art navigation, simultaneous localization and mapping (SLAM), and computer vision methods.
翻訳日:2022-07-07 08:02:56 公開日:2022-07-03
# (参考訳) 設計による解釈:解釈可能なクエリを構成することによって予測子を学ぶ

Interpretable by Design: Learning Predictors by Composing Interpretable Queries ( http://arxiv.org/abs/2207.00938v1 )

ライセンス: CC BY 4.0
Aditya Chattopadhyay, Stewart Slocum, Benjamin D. Haeffele, Rene Vidal and Donald Geman(参考訳) 高性能機械学習アルゴリズムによる不透明な意思決定には、懸念が高まっている。 ドメイン固有の用語で推論プロセスを説明することは、医療などのリスクに敏感なドメインの採用に不可欠である。 我々は、機械学習アルゴリズムは設計によって解釈されるべきであり、これらの解釈が表現される言語はドメインに依存し、タスクに依存しなければならないと論じる。 その結果、ユーザ定義およびタスク固有のバイナリ関数のファミリーに基づいて、モデルの予測を行い、それぞれがエンドユーザーに対して明確な解釈をすることができる。 次に、任意の入力に対する正確な予測に必要なクエリの期待数を最小化する。 ソリューションは一般的に難解であるため,先行作業の後に情報ゲインに基づいてクエリを順次選択する。 しかし、以前の作業とは対照的に、クエリが条件付き独立であると仮定する必要はありません。 その代わりに,確率的生成モデル (VAE) とMCMCアルゴリズム (Unadjusted Langevin) を用いて,入力に関する最も情報性の高いクエリを選択する。 これにより、予測曖昧さを解決するのに必要な深さのクエリチェーンのオンライン決定が可能になる。 最後に、視覚とNLPタスクの実験により、我々のアプローチの有効性と、ポストホックな説明よりも優れていることを示す。

There is a growing concern about typically opaque decision-making with high-performance machine learning algorithms. Providing an explanation of the reasoning process in domain-specific terms can be crucial for adoption in risk-sensitive domains such as healthcare. We argue that machine learning algorithms should be interpretable by design and that the language in which these interpretations are expressed should be domain- and task-dependent. Consequently, we base our model's prediction on a family of user-defined and task-specific binary functions of the data, each having a clear interpretation to the end-user. We then minimize the expected number of queries needed for accurate prediction on any given input. As the solution is generally intractable, following prior work, we choose the queries sequentially based on information gain. However, in contrast to previous work, we need not assume the queries are conditionally independent. Instead, we leverage a stochastic generative model (VAE) and an MCMC algorithm (Unadjusted Langevin) to select the most informative query about the input based on previous query-answers. This enables the online determination of a query chain of whatever depth is required to resolve prediction ambiguities. Finally, experiments on vision and NLP tasks demonstrate the efficacy of our approach and its superiority over post-hoc explanations.
翻訳日:2022-07-07 07:51:26 公開日:2022-07-03
# (参考訳) PS$2$F:シングルショット3Dセンシングのための偏極スパイラル点拡散関数

PS$^2$F: Polarized Spiral Point Spread Function for Single-Shot 3D Sensing ( http://arxiv.org/abs/2207.00945v1 )

ライセンス: CC BY 4.0
Bhargav Ghanekar, Vishwanath Saragadam, Dushyant Mehra, Anna-Karin Gustavsson, Aswin Sankaranarayanan, Ashok Veeraraghavan(参考訳) 本稿では,工学的点展開関数 (PSF) に依存するコンパクトなスナップショット単眼深度推定手法を提案する。 ダブルヘリックスPSF(英語版) (DHPSF) のような顕微鏡超解像イメージングで使用される従来のアプローチは、点光源のスパースセットよりも複雑なシーンに適している。 また,CRLBを用いてDHPSFの2つの領域を分離し,分離した2つの画像を取得することにより,深度精度が劇的に向上することを示した。 DHPSFの生成に使用される相マスクの特徴は、相マスクを2つの半身に分離することで、2つの葉の空間的分離につながることである。 この特性を利用して、コンパクトな偏光ベースの光学セットアップを構築し、dhpsf位相マスクの半数に2つの直交線形偏光子を配置し、偏光感度カメラで撮像する。 DHPSFやテトラポッドPSFなどの最先端設計と比較して, 空間分解能を損なうことなく, 最大50 % の精度で誤差を低減できることが, シミュレーションと実験室の試作で実証された。

We propose a compact snapshot monocular depth estimation technique that relies on an engineered point spread function (PSF). Traditional approaches used in microscopic super-resolution imaging, such as the Double-Helix PSF (DHPSF), are ill-suited for scenes that are more complex than a sparse set of point light sources. We show, using the Cram\'er-Rao lower bound (CRLB), that separating the two lobes of the DHPSF and thereby capturing two separate images leads to a dramatic increase in depth accuracy. A unique property of the phase mask used for generating the DHPSF is that a separation of the phase mask into two halves leads to a spatial separation of the two lobes. We leverage this property to build a compact polarization-based optical setup, where we place two orthogonal linear polarizers on each half of the DHPSF phase mask and then capture the resulting image with a polarization sensitive camera. Results from simulations and a lab prototype demonstrate that our technique achieves up to $50\%$ lower depth error compared to state-of-the-art designs including the DHPSF, and the Tetrapod PSF, with little to no loss in spatial resolution.
翻訳日:2022-07-06 13:18:24 公開日:2022-07-03
# (参考訳) ハッシュ化トリックのトリック:適応入力に対するcountsketchのロバスト性について

Tricking the Hashing Trick: A Tight Lower Bound on the Robustness of CountSketch to Adaptive Inputs ( http://arxiv.org/abs/2207.00956v1 )

ライセンス: CC BY 4.0
Edith Cohen, Jelani Nelson, Tam\'as Sarl\'os, Uri Stemmer(参考訳) CountSketch と Feature Hashing は、$\ell_2$-heavy hitter (keys $i$ where $v_i^2 > \epsilon \|\boldsymbol{v}\|_2^2$) と近似内積の回復をサポートする一般的なランダム化次元減少法である。 入力が適応的でない場合(事前の出力に依存しない)、$O(\ell/\epsilon)$のスケッチに適用される古典的な推定子は$\ell$で指数関数的な多くのクエリに対して正確である。 しかし、入力が適応的である場合、逆入力は古典的な推定器で$o(\ell)$クエリ後に構築することができ、最もよく知られたロバスト推定器は$\tilde{o}(\ell^2)$クエリのみをサポートする。 我々は、$O(\ell^2)$クエリの後に、スケッチに非常に偏りがある逆入力ベクトルを生成するような攻撃を設計する。 攻撃は「自然な」非適応入力(最終敵入力のみを適応的に選択する)を使用し、攻撃者に未知のものを含む任意の正しい推定器に普遍的に適用される。 そこで本手法の本質的脆弱性を明らかにする。

CountSketch and Feature Hashing (the "hashing trick") are popular randomized dimensionality reduction methods that support recovery of $\ell_2$-heavy hitters (keys $i$ where $v_i^2 > \epsilon \|\boldsymbol{v}\|_2^2$) and approximate inner products. When the inputs are {\em not adaptive} (do not depend on prior outputs), classic estimators applied to a sketch of size $O(\ell/\epsilon)$ are accurate for a number of queries that is exponential in $\ell$. When inputs are adaptive, however, an adversarial input can be constructed after $O(\ell)$ queries with the classic estimator and the best known robust estimator only supports $\tilde{O}(\ell^2)$ queries. In this work we show that this quadratic dependence is in a sense inherent: We design an attack that after $O(\ell^2)$ queries produces an adversarial input vector whose sketch is highly biased. Our attack uses "natural" non-adaptive inputs (only the final adversarial input is chosen adaptively) and universally applies with any correct estimator, including one that is unknown to the attacker. In that, we expose inherent vulnerability of this fundamental method.
翻訳日:2022-07-06 11:37:35 公開日:2022-07-03
# (参考訳) k$-means コアセットの実験的評価

An Empirical Evaluation of $k$-Means Coresets ( http://arxiv.org/abs/2207.00966v1 )

ライセンス: CC BY 4.0
Chris Schwiegelshohn and Omar Ali Sheikh-Omar(参考訳) コアセットはデータを要約する最も一般的なパラダイムのひとつです。 特に、理論と実践の両方において$k$-meansのようなクラスタリング問題に対する高性能コアセットが多数存在する。 興味深いことに、利用可能な$k$-means コアセットの品質を比較する作業はない。 本稿では,このような評価を行う。 現在、候補コアセットの歪みを測定するアルゴリズムは知られていない。 なぜ計算が難しいのか、いくつかの証拠を提供する。 そこで我々は,コアセットの計算が困難であるとともに,コアセットの簡易な(ヒューリスティックな)評価を可能にするベンチマークを提案する。 このベンチマークと実世界のデータセットを用いて、理論と実践から最もよく使われるコアセットアルゴリズムを徹底的に評価する。

Coresets are among the most popular paradigms for summarizing data. In particular, there exist many high performance coresets for clustering problems such as $k$-means in both theory and practice. Curiously, there exists no work on comparing the quality of available $k$-means coresets. In this paper we perform such an evaluation. There currently is no algorithm known to measure the distortion of a candidate coreset. We provide some evidence as to why this might be computationally difficult. To complement this, we propose a benchmark for which we argue that computing coresets is challenging and which also allows us an easy (heuristic) evaluation of coresets. Using this benchmark and real-world data sets, we conduct an exhaustive evaluation of the most commonly used coreset algorithms from theory and practice.
翻訳日:2022-07-06 11:16:16 公開日:2022-07-03
# (参考訳) ディープラーニングモデルによるTieq Viet理解

Understanding Tieq Viet with Deep Learning Models ( http://arxiv.org/abs/2207.00975v1 )

ライセンス: CC BY 4.0
Nguyen Ha Thanh(参考訳) 深層学習は、失われた情報とより難しい逆関数計算問題を回復する強力なアプローチである。 自然言語処理に適用する場合、この手法は基本的に、最大限の最大化によって情報を回復する手段としてコンテキストを利用する。 程なくして、ティエク・ヴィエトという言語研究が研究者と社会の間で論争を巻き起こした。 これは、深層学習モデルが失われた情報を回復する能力を示す素晴らしい例です。 Tieq Vietの提案では、ベトナム標準語の子音が置き換えられている。 この提案で書かれた文は、異なる意味を持つ標準バージョンで複数の文に解釈できる。 テストしたい仮説は、ベトナム語からtieq vietにテキストを翻訳すれば、ディープラーニングモデルが失われた情報を復元できるかどうかです。

Deep learning is a powerful approach in recovering lost information as well as harder inverse function computation problems. When applied in natural language processing, this approach is essentially making use of context as a mean to recover information through likelihood maximization. Not long ago, a linguistic study called Tieq Viet was controversial among both researchers and society. We find this a great example to demonstrate the ability of deep learning models to recover lost information. In the proposal of Tieq Viet, some consonants in the standard Vietnamese are replaced. A sentence written in this proposal can be interpreted into multiple sentences in the standard version, with different meanings. The hypothesis that we want to test is whether a deep learning model can recover the lost information if we translate the text from Vietnamese to Tieq Viet.
翻訳日:2022-07-06 11:15:22 公開日:2022-07-03
# (参考訳) PrUE:スパース教師ネットワークからの知識の希薄化

PrUE: Distilling Knowledge from Sparse Teacher Networks ( http://arxiv.org/abs/2207.00586v1 )

ライセンス: CC BY 4.0
Shaopu Wang, Xiaojun Chen, Mengzhen Kou, Jinqiao Shi(参考訳) ディープニューラルネットワークは、さまざまなタスクで目覚ましい成功を収めていますが、その拡大するサイズは、デプロイメントにかなりのオーバーヘッドを伴います。 これらのモデルを圧縮するために、知識蒸留法が提案され、扱いにくい(教師)ネットワークから軽量(学生)ネットワークへ知識を伝達する。 しかし,教師の指導は,特に学生と教師の差が大きい場合には,生徒の一般化を常に改善するとは限らない。 以前の作品では、それは教師の確証が高いためであり、その結果、適合が困難であったラベルが難しかった。 これらのラベルを軟化するために,教師を簡易化する予測不確実性向上法(PrUE)を提案する。 具体的には,データに対する教師の自信を減らし,学生の柔らかい予測を生み出すことを目的としている。 CIFAR-10/100, Tiny-ImageNet, ImageNet を用いた実験により提案手法の有効性を実証的に検討した。 その結果,スパース教員の訓練を受けた学生ネットワークは,成績が良くなった。 さらに,より深いネットワークから知識を抽出し,さらに学生を育成する手法を提案する。 私たちのコードは、次のように公開されています。

Although deep neural networks have enjoyed remarkable success across a wide variety of tasks, their ever-increasing size also imposes significant overhead on deployment. To compress these models, knowledge distillation was proposed to transfer knowledge from a cumbersome (teacher) network into a lightweight (student) network. However, guidance from a teacher does not always improve the generalization of students, especially when the size gap between student and teacher is large. Previous works argued that it was due to the high certainty of the teacher, resulting in harder labels that were difficult to fit. To soften these labels, we present a pruning method termed Prediction Uncertainty Enlargement (PrUE) to simplify the teacher. Specifically, our method aims to decrease the teacher's certainty about data, thereby generating soft predictions for students. We empirically investigate the effectiveness of the proposed method with experiments on CIFAR-10/100, Tiny-ImageNet, and ImageNet. Results indicate that student networks trained with sparse teachers achieve better performance. Besides, our method allows researchers to distill knowledge from deeper networks to improve students further. Our code is made public at: \url{https://github.com/wangshaopu/prue}.
翻訳日:2022-07-06 11:08:54 公開日:2022-07-03
# (参考訳) renaissance robot: 多様なスキルを学ぶための最適な輸送政策融合

Renaissance Robot: Optimal Transport Policy Fusion for Learning Diverse Skills ( http://arxiv.org/abs/2207.00978v1 )

ライセンス: CC BY 4.0
Julia Tan, Ransalu Senanayake, Fabio Ramos(参考訳) deep reinforcement learning (rl) は複雑なロボット工学問題を解決するための有望なアプローチである。 しかし、RLアルゴリズムの最近の進歩にもかかわらず、試行錯誤による学習のプロセスは、しばしば非常に時間がかかる。 さらに、rlの成功は、報酬変換関数がいかにタスクに適合するかに決定的に依存しており、これも設計に時間がかかります。 さまざまなロボティクスの問題を訓練するエージェントが増加し続けており、新しいドメインに価値ある学習を再利用する能力はますます重要になっている。 本稿では、異なるシナリオで訓練された複数のエージェントの知識を集約する堅牢な手段として、最適輸送理論を用いた政策融合のポストホック手法を提案する。 さらに、これは新しいタスクを学習するためのニューラルネットワークポリシーの初期化を改善し、親ポリシーの再トレーニングや新しいポリシーをゼロからトレーニングするよりも、時間と計算リソースを少なくすることを示した。 最終的に, 深部RLでよく用いられる多種多様なエージェントについて, 専門知識を「ルネッサンスエージェント」に統合し, 新たなスキルの学習を迅速に行うことができた。

Deep reinforcement learning (RL) is a promising approach to solving complex robotics problems. However, the process of learning through trial-and-error interactions is often highly time-consuming, despite recent advancements in RL algorithms. Additionally, the success of RL is critically dependent on how well the reward-shaping function suits the task, which is also time-consuming to design. As agents trained on a variety of robotics problems continue to proliferate, the ability to reuse their valuable learning for new domains becomes increasingly significant. In this paper, we propose a post-hoc technique for policy fusion using Optimal Transport theory as a robust means of consolidating the knowledge of multiple agents that have been trained on distinct scenarios. We further demonstrate that this provides an improved weights initialisation of the neural network policy for learning new tasks, requiring less time and computational resources than either retraining the parent policies or training a new policy from scratch. Ultimately, our results on diverse agents commonly used in deep RL show that specialised knowledge can be unified into a "Renaissance agent", allowing for quicker learning of new skills.
翻訳日:2022-07-06 10:56:21 公開日:2022-07-03
# (参考訳) 歩行解析に応用したロボット搭載3Dカメラの精度向上のための教師付き学習

Supervised learning for improving the accuracy of robot-mounted 3D camera applied to human gait analysis ( http://arxiv.org/abs/2207.01002v1 )

ライセンス: CC BY 4.0
Diego Guffanti, Alberto Brunete, Miguel Hernando, David \'Alvarez, Javier Rueda, Enrique Navarro(参考訳) 歩行分析における3Dカメラの使用は、過去に実証された低い精度のため、非常に疑問視されている。 本研究の目的は,ロボット搭載3Dカメラによる歩行解析における推定精度を,教師付き学習段階を適用して向上させることである。 3dカメラは、より長い歩行距離を得るために移動ロボットに搭載された。 本研究では,ビコンシステムから得られたデータを用いてトレーニングした人工ニューラルネットワークを用いて,カメラの生推定を後処理することにより,運動歩行信号と歩行記述子の検出の改善を示す。 これを実現するため,37名の健常者が採用され,orbbec astra 3dカメラを用いて207種類の歩行シーケンスのデータを収集した。 トレーニングには2つの基本的なアプローチがある。 前者は, 誤差を低減し, ビコン系との相関を増大させることにより, 運動歩行信号の波形改善を図る。 2つ目はより直接的なアプローチで、歩行記述子を使ってニューラルネットワークをトレーニングすることに焦点を当てている。 3dカメラの精度はトレーニング前後で測定した。 どちらの訓練アプローチも改善が見られた。 キネマティックな歩行信号は, 誤差が低く, 基礎的真理に対する相関が高かった。 歩行ディスクリプタを検出するシステムの精度も、時空間ではなく運動ディスクリプタに対して大幅に向上した。 両方のトレーニングアプローチを比較する場合、どちらが最善かを定義することはできませんでした。 したがって,学習アプローチの選択は,実施すべき研究の目的に左右されると信じている。 本研究は,3Dカメラの大きな可能性を明らかにし,歩行分析における使用の継続を研究コミュニティに奨励するものである。

The use of 3D cameras for gait analysis has been highly questioned due to the low accuracy they have demonstrated in the past. The objective of the study presented in this paper is to improve the accuracy of the estimations made by robot-mounted 3D cameras in human gait analysis by applying a supervised learning stage. The 3D camera was mounted in a mobile robot to obtain a longer walking distance. This study shows an improvement in detection of kinematic gait signals and gait descriptors by post-processing the raw estimations of the camera using artificial neural networks trained with the data obtained from a certified Vicon system. To achieve this, 37 healthy participants were recruited and data of 207 gait sequences were collected using an Orbbec Astra 3D camera. There are two basic possible approaches for training: using kinematic gait signals and using gait descriptors. The former seeks to improve the waveforms of kinematic gait signals by reducing the error and increasing the correlation with respect to the Vicon system. The second is a more direct approach, focusing on training the artificial neural networks using gait descriptors directly. The accuracy of the 3D camera was measured before and after training. In both training approaches, an improvement was observed. Kinematic gait signals showed lower errors and higher correlations with respect to the ground truth. The accuracy of the system to detect gait descriptors also showed a substantial improvement, mostly for kinematic descriptors rather than spatio-temporal. When comparing both training approaches, it was not possible to define which was the absolute best. Therefore, we believe that the selection of the training approach will depend on the purpose of the study to be conducted. This study reveals the great potential of 3D cameras and encourages the research community to continue exploring their use in gait analysis.
翻訳日:2022-07-06 10:42:49 公開日:2022-07-03
# (参考訳) レーザーからイベントへ:ライダーとイベントカメラの自動外装校正

Lasers to Events: Automatic Extrinsic Calibration of Lidars and Event Cameras ( http://arxiv.org/abs/2207.01009v1 )

ライセンス: CC BY 4.0
Kevin Ta, David Bruggemann, Tim Br\"odermann, Christos Sakaridis, Luc Van Gool(参考訳) 学術的・企業的な努力にもかかわらず、悪い視覚条件下での自律運転は依然として困難である。 ニューロモルフィック技術が成熟するにつれて、ロボット工学や自動運転車システムへの応用が活発な研究領域となっている。 低照度かつ遅延要求の状況にはメリットがある。 イベントカメラがライダーなどのセンサと連動して動作できるようにするために,イベントカメラとライダーの直接的な時間分解キャリブレーション手法を提案する。 イベントカメラの高ダイナミックレンジと低照度操作は、lidarレーザーのリターンを直接登録するために利用され、情報に基づく相関手法が2つのセンサー間の6自由度キャリブレーションに最適化される。 本稿では,イベントカメラとライダーの直接キャリブレーションを行う最初の方法を提案する。 コードは公開される予定だ。

Despite significant academic and corporate efforts, autonomous driving under adverse visual conditions still proves challenging. As neuromorphic technology has matured, its application to robotics and autonomous vehicle systems has become an area of active research. Low-light and latency-demanding situations can benefit. To enable event cameras to operate alongside staple sensors like lidar in perception tasks, we propose a direct, temporally-decoupled calibration method between event cameras and lidars. The high dynamic range and low-light operation of event cameras are exploited to directly register lidar laser returns, allowing information-based correlation methods to optimize for the 6-DoF extrinsic calibration between the two sensors. This paper presents the first direct calibration method between event cameras and lidars, removing dependencies on frame-based camera intermediaries and/or highly-accurate hand measurements. Code will be made publicly available.
翻訳日:2022-07-06 10:26:20 公開日:2022-07-03
# (参考訳) 機能的磁気共鳴画像を用いたganインバージョンによる顔画像再構成

Facial Image Reconstruction from Functional Magnetic Resonance Imaging via GAN Inversion with Improved Attribute Consistency ( http://arxiv.org/abs/2207.01011v1 )

ライセンス: CC BY 4.0
Pei-Chun Chang, Yan-Yu Tien, Chia-Lin Chen, Li-Fen Chen, Yong-Sheng Chen and Hui-Ling Chan(参考訳) 神経科学の研究により、脳は視覚コンテンツをエンコードし、神経活動に情報を埋め込むことが明らかになった。 近年,gans(generative adversarial network)を用いた脳活動と画像刺激のマッピングによる視覚再構成の試みが進められている。 しかし、これらの研究は画像空間における潜在コードの意味を考慮していない。 意味情報の省略は、パフォーマンスを制限する可能性がある。 本研究では,機能的磁気共鳴画像(fMRI)データから顔画像の再構成を行う新しい枠組みを提案する。 このフレームワークにより、GANインバージョンはまずイメージエンコーダを訓練し、画像空間内の遅延符号を抽出し、線形変換を用いてfMRIデータにブリッジする。 属性分類器を用いてfMRIデータから特定された属性に続いて、属性を操作する方向が決定され、属性マニピュレータが潜在コードを調整することにより、画像と再構成画像との整合性を改善する。 提案手法は,fMRIデータから明瞭な顔画像の再構成と,意味的特徴の一貫性の維持という2つの目標を達成できることを実験的に示唆した。

Neuroscience studies have revealed that the brain encodes visual content and embeds information in neural activity. Recently, deep learning techniques have facilitated attempts to address visual reconstructions by mapping brain activity to image stimuli using generative adversarial networks (GANs). However, none of these studies have considered the semantic meaning of latent code in image space. Omitting semantic information could potentially limit the performance. In this study, we propose a new framework to reconstruct facial images from functional Magnetic Resonance Imaging (fMRI) data. With this framework, the GAN inversion is first applied to train an image encoder to extract latent codes in image space, which are then bridged to fMRI data using linear transformation. Following the attributes identified from fMRI data using an attribute classifier, the direction in which to manipulate attributes is decided and the attribute manipulator adjusts the latent code to improve the consistency between the seen image and the reconstructed image. Our experimental results suggest that the proposed framework accomplishes two goals: (1) reconstructing clear facial images from fMRI data and (2) maintaining the consistency of semantic characteristics.
翻訳日:2022-07-06 10:14:23 公開日:2022-07-03
# (参考訳) 深層学習とトランスファー学習を用いたソーシャルメディアテキストの精神疾患分類

Mental Illness Classification on Social Media Texts using Deep Learning and Transfer Learning ( http://arxiv.org/abs/2207.01012v1 )

ライセンス: CC BY 4.0
Iqra Ameer, Muhammad Arif, Grigori Sidorov, Helena G\`omez-Adorno, and Alexander Gelbukh(参考訳) 現在の世界の社会距離制限を考えると、ほとんどの個人はソーシャルメディアを主要なコミュニケーション媒体として使っている。 精神疾患に苦しむ何百万人もの人々がこのために孤立しており、直接助けられていない。 彼らは自分自身を表現し、精神障害に対処するためのアドバイスを求めるために、オンラインの会場に依存するようになった。 世界保健機関(WHO)によると、約4億5000万人が影響を受ける。 うつ病、不安などの精神疾患は極めて一般的であり、個人の身体的健康に影響を与えている。 近年,精神科医や心理学者などの精神保健提供者に対して,患者の真正な情報(医療記録,行動データ,ソーシャルメディア利用など)に基づく意思決定を支援する人工知能(ai)手法が提案されている。 aiイノベーションは、コンピュータビジョンから医療まで、多くの現実世界のアプリケーションで主に実行されている。 本研究ではRedditプラットフォーム上の非構造化ユーザデータを分析し、うつ病、不安、双極性障害、ADHD、PTSDの5つの一般的な精神疾患を分類する。 我々は、個人の精神障害を検出するために、従来の機械学習、深層学習、多クラス学習モデルを訓練した。 この取り組みは、検出プロセスを自動化し、緊急支援を必要とする人々について適切な当局に通知することで、公衆衛生システムに役立つだろう。

Given the current social distance restrictions across the world, most individuals now use social media as their major medium of communication. Millions of people suffering from mental diseases have been isolated due to this, and they are unable to get help in person. They have become more reliant on online venues to express themselves and seek advice on dealing with their mental disorders. According to the World health organization (WHO), approximately 450 million people are affected. Mental illnesses, such as depression, anxiety, etc., are immensely common and have affected an individuals' physical health. Recently Artificial Intelligence (AI) methods have been presented to help mental health providers, including psychiatrists and psychologists, in decision making based on patients' authentic information (e.g., medical records, behavioral data, social media utilization, etc.). AI innovations have demonstrated predominant execution in numerous real-world applications broadening from computer vision to healthcare. This study analyzes unstructured user data on the Reddit platform and classifies five common mental illnesses: depression, anxiety, bipolar disorder, ADHD, and PTSD. We trained traditional machine learning, deep learning, and transfer learning multi-class models to detect mental disorders of individuals. This effort will benefit the public health system by automating the detection process and informing appropriate authorities about people who require emergency assistance.
翻訳日:2022-07-06 10:00:10 公開日:2022-07-03
# (参考訳) 家庭電力消費予測のための時系列予測手法の比較分析

Comparative Analysis of Time Series Forecasting Approaches for Household Electricity Consumption Prediction ( http://arxiv.org/abs/2207.01019v1 )

ライセンス: CC BY 4.0
Muhammad Bilal, Hyeok Kim, Muhammad Fayaz, Pravin Pawar(参考訳) 人口増加とグローバリゼーションの結果、エネルギー需要は大幅に増加した。 そのため、政府の計画には正確なエネルギー消費予測が不可欠であり、省電力化とエネルギー管理システムの安定運用が求められている。 本研究では,家庭用エネルギー消費量の時系列予測のための主要機械学習モデルの比較分析を行う。 具体的には、データマイニングツールであるwekaを使用して、kaggle data scienceコミュニティから利用可能な時間単位と日単位のエネルギー消費データセットのモデルを適用します。 適用されるモデルは、多層パーセプトロン、K近傍回帰、サポートベクトル回帰、線形回帰、およびガウス過程である。 第2に, 気象データの有無に関わらず, 韓国人の家庭エネルギー消費量を予測するために, 時系列予測モデルであるarimaとvarをpythonで実装した。 以上の結果から,エネルギー消費予測の最良の予測方法は支援ベクトル回帰と多層パーセプトロンとガウス過程回帰であることがわかった。

As a result of increasing population and globalization, the demand for energy has greatly risen. Therefore, accurate energy consumption forecasting has become an essential prerequisite for government planning, reducing power wastage and stable operation of the energy management system. In this work we present a comparative analysis of major machine learning models for time series forecasting of household energy consumption. Specifically, we use Weka, a data mining tool to first apply models on hourly and daily household energy consumption datasets available from Kaggle data science community. The models applied are: Multilayer Perceptron, K Nearest Neighbor regression, Support Vector Regression, Linear Regression, and Gaussian Processes. Secondly, we also implemented time series forecasting models, ARIMA and VAR, in python to forecast household energy consumption of selected South Korean households with and without weather data. Our results show that the best methods for the forecasting of energy consumption prediction are Support Vector Regression followed by Multilayer Perceptron and Gaussian Process Regression.
翻訳日:2022-07-06 09:49:40 公開日:2022-07-03
# (参考訳) 条件付きランダム化テストのパワーを高めるための学習

Learning to Increase the Power of Conditional Randomization Tests ( http://arxiv.org/abs/2207.01022v1 )

ライセンス: CC BY 4.0
Shalev Shaer and Yaniv Romano(参考訳) model-x条件付きランダム化テスト(model-x conditional randomization test)は条件付き独立性テストのための汎用的なフレームワークであり、タイプiのエラー率を制御しながら、関心の応答に条件付きで関連した特徴を発見するための新しい可能性を開く。 このテストの魅力的な利点は、強力なテスト統計を設計するためにどんな機械学習モデルとも連携できることである。 逆に、モデルX文献の一般的な実践は、優れたパワーでテストを達成するために予測精度を最大化するように訓練された機械学習モデルを使用してテスト統計を作成することである。 しかし、ここでの理想的な目標はモデル(トレーニング中)を、単なる予測精度ではなく、テストのパワーを最大化することです。 本稿では,model-xテストのパワーを明示的に向上させるように設計された,新たなモデルフィッティングスキームを導入することで,このギャップを埋める。 これは、条件付き独立性の違反を測定するために使用されるテスト統計を最大化する新しいコスト関数を導入することで実現される。 合成および実データを用いて、提案した損失関数と様々なベース予測モデル(ラスソ、弾性ネット、ディープニューラルネットワーク)を組み合わせることで、制御下でのタイプIエラー率を維持しながら、得られた正しい発見数を一貫して増加させることを示した。

The model-X conditional randomization test is a generic framework for conditional independence testing, unlocking new possibilities to discover features that are conditionally associated with a response of interest while controlling type-I error rates. An appealing advantage of this test is that it can work with any machine learning model to design powerful test statistics. In turn, the common practice in the model-X literature is to form a test statistic using machine learning models, trained to maximize predictive accuracy with the hope to attain a test with good power. However, the ideal goal here is to drive the model (during training) to maximize the power of the test, not merely the predictive accuracy. In this paper, we bridge this gap by introducing, for the first time, novel model-fitting schemes that are designed to explicitly improve the power of model-X tests. This is done by introducing a new cost function that aims at maximizing the test statistic used to measure violations of conditional independence. Using synthetic and real data sets, we demonstrate that the combination of our proposed loss function with various base predictive models (lasso, elastic net, and deep neural networks) consistently increases the number of correct discoveries obtained, while maintaining type-I error rates under control.
翻訳日:2022-07-06 09:42:42 公開日:2022-07-03
# (参考訳) Few-Shot Class-Incremental Learningのためのメモリベースラベルテキストチューニング

Memory-Based Label-Text Tuning for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2207.01036v1 )

ライセンス: CC BY 4.0
Jinze Li, Yan Bai, Yihang Lou, Xiongkun Linghu, Jianzhong He, Shaoyun Xu, Tao Bai(参考訳) FSCIL(Few-shot class-incremental Learning)は、古いタスクを忘れずに、少数のサンプルから新しいタスクのシーケンスを継続的に学習できる学習アルゴリズムを設計することに焦点を当てている。 困難は、新しいタスクから限られたデータ列のトレーニングが深刻な過剰フィッティング問題を引き起こし、よく知られた破滅的な忘れる問題を引き起こすことである。 既存の研究は主に、前のタスクの画像知識の保存や分類器更新の制限といった画像情報を利用する。 しかし、クラスラベルの情報やノイズの少ないテキスト情報の解析は無視している。 本稿では,メモリプロンプトを用いてラベルテキスト情報を活用することを提案する。 メモリプロンプトは、新しいデータをシーケンシャルに学習し、一方、前の知識を記憶する。 さらに,記憶された知識を損なうことなく記憶プロンプトを最適化するために,刺激に基づく学習戦略を提案する。 画像埋め込み要素の分布である画像埋め込み刺激に応じてメモリプロンプトを最適化する。 実験により,提案手法が先行手法のすべてに勝ることを示し,破滅的な放棄と過剰適合の問題を著しく軽減した。

Few-shot class-incremental learning(FSCIL) focuses on designing learning algorithms that can continually learn a sequence of new tasks from a few samples without forgetting old ones. The difficulties are that training on a sequence of limited data from new tasks leads to severe overfitting issues and causes the well-known catastrophic forgetting problem. Existing researches mainly utilize the image information, such as storing the image knowledge of previous tasks or limiting classifiers updating. However, they ignore analyzing the informative and less noisy text information of class labels. In this work, we propose leveraging the label-text information by adopting the memory prompt. The memory prompt can learn new data sequentially, and meanwhile store the previous knowledge. Furthermore, to optimize the memory prompt without undermining the stored knowledge, we propose a stimulation-based training strategy. It optimizes the memory prompt depending on the image embedding stimulation, which is the distribution of the image embedding elements. Experiments show that our proposed method outperforms all prior state-of-the-art approaches, significantly mitigating the catastrophic forgetting and overfitting problems.
翻訳日:2022-07-06 09:40:41 公開日:2022-07-03
# (参考訳) プライバシー保護音声認識のための性別あいまい音声の生成

Generating gender-ambiguous voices for privacy-preserving speech recognition ( http://arxiv.org/abs/2207.01052v1 )

ライセンス: CC BY 4.0
Dimitrios Stoidis and Andrea Cavallaro(参考訳) 我々の音声は、個人が音声認識サービスを使用する際に明かさないように、性別やアイデンティティなどの個人属性を推測するために使用できる、一意に識別可能なパターンを符号化する。 音声認識タスクと並行して属性推論攻撃を防止するために,話者の性別やアイデンティティを隠す音声を合成する生成的逆ネットワークgenganを提案する。 提案するネットワークは、識別器を騙すことを学習するU-Netアーキテクチャのジェネレータを含む。 我々は、性別情報のみにジェネレータを条件とし、信号歪みとプライバシ保護の間の逆損失を利用する。 GenGANは、ジェンダー情報を保護する機密属性とみなすプライバシー保護表現学習法と比較して、プライバシとユーティリティのトレードオフを改善する。

Our voice encodes a uniquely identifiable pattern which can be used to infer private attributes, such as gender or identity, that an individual might wish not to reveal when using a speech recognition service. To prevent attribute inference attacks alongside speech recognition tasks, we present a generative adversarial network, GenGAN, that synthesises voices that conceal the gender or identity of a speaker. The proposed network includes a generator with a U-Net architecture that learns to fool a discriminator. We condition the generator only on gender information and use an adversarial loss between signal distortion and privacy preservation. We show that GenGAN improves the trade-off between privacy and utility compared to privacy-preserving representation learning methods that consider gender information as a sensitive attribute to protect.
翻訳日:2022-07-06 09:28:55 公開日:2022-07-03
# (参考訳) protea: flowerを用いたフェデレーションシステム内のクライアントプロファイリング

Protea: Client Profiling within Federated Systems using Flower ( http://arxiv.org/abs/2207.01053v1 )

ライセンス: CC BY 4.0
Wanru Zhao, Xinchi Qiu, Javier Fernandez-Marques, Pedro P. B. de Gusm\~ao, Nicholas D. Lane(参考訳) フェデレートラーニング(FL)は,ユーザのプライバシを損なうことなく,ハイパフォーマンスな集中モデルのトレーニングを容易にする,先進的なソリューションとして登場した。 研究は成功したものの、実験の初期段階で現実的な大規模FLシステムを構築する可能性によって制限されている。 シミュレーションはこのプロセスを加速するのに役立ちます。 ヘテロジニアスクライアントの効率的な fl シミュレーションを容易にするために,fl framework flower を用いて,フレキシブルで軽量なクライアントプロファイリングコンポーネント protea を設計し,実装する。 システムレベルの統計を自動的に収集し、各クライアントに必要なリソースを推定し、リソースを意識してシミュレーションを実行する。 以上の結果から,我々の設計は並列性を1.66$\times$高速ウォールクロックと2.6$\times$優れたGPU利用で向上させることができた。

Federated Learning (FL) has emerged as a prospective solution that facilitates the training of a high-performing centralised model without compromising the privacy of users. While successful, research is currently limited by the possibility of establishing a realistic large-scale FL system at the early stages of experimentation. Simulation can help accelerate this process. To facilitate efficient scalable FL simulation of heterogeneous clients, we design and implement Protea, a flexible and lightweight client profiling component within federated systems using the FL framework Flower. It allows automatically collecting system-level statistics and estimating the resources needed for each client, thus running the simulation in a resource-aware fashion. The results show that our design successfully increases parallelism for 1.66 $\times$ faster wall-clock time and 2.6$\times$ better GPU utilisation, which enables large-scale experiments on heterogeneous clients.
翻訳日:2022-07-06 09:16:25 公開日:2022-07-03
# (参考訳) ビジョンランゲージ事前学習モデルにおける社会的バイアスの測定と排除

Counterfactually Measuring and Eliminating Social Bias in Vision-Language Pre-training Models ( http://arxiv.org/abs/2207.01056v1 )

ライセンス: CC BY 4.0
Yi Zhang, Junyang Wang, Jitao Sang(参考訳) vision-language pre-training (vlp)モデルは多くのクロスモーダルタスクで最先端のパフォーマンスを達成している。 モダリティ内およびモダリティ間の統計特性を捉えるために最適化されているため、データに提示される社会的バイアスも学習するリスクがある。 In this work, we (1) introduce a counterfactual-based bias measurement \emph{CounterBias} to quantify the social bias in VLP models by comparing the [MASK]ed prediction probabilities of factual and counterfactual samples; (2) construct a novel VL-Bias dataset including 24K image-text pairs for measuring gender bias in VLP models, from which we observed that significant gender bias is prevalent in VLP models; and (3) propose a VLP debiasing method \emph{FairVLP} to minimize the difference in the [MASK]ed prediction probabilities between factual and counterfactual image-text pairs for VLP debiasing. CounterBias と FairVLP は社会的バイアスに重点を置いているが、ツールとして機能し、VLP モデルでより多くの知識を探索し、規則化する新しい洞察を提供するために一般化可能である。

Vision-Language Pre-training (VLP) models have achieved state-of-the-art performance in numerous cross-modal tasks. Since they are optimized to capture the statistical properties of intra- and inter-modality, there remains risk to learn social biases presented in the data as well. In this work, we (1) introduce a counterfactual-based bias measurement \emph{CounterBias} to quantify the social bias in VLP models by comparing the [MASK]ed prediction probabilities of factual and counterfactual samples; (2) construct a novel VL-Bias dataset including 24K image-text pairs for measuring gender bias in VLP models, from which we observed that significant gender bias is prevalent in VLP models; and (3) propose a VLP debiasing method \emph{FairVLP} to minimize the difference in the [MASK]ed prediction probabilities between factual and counterfactual image-text pairs for VLP debiasing. Although CounterBias and FairVLP focus on social bias, they are generalizable to serve as tools and provide new insights to probe and regularize more knowledge in VLP models.
翻訳日:2022-07-06 09:07:13 公開日:2022-07-03
# (参考訳) NP-Match: ニューラルネットワークが半教師付き学習に合うとき

NP-Match: When Neural Processes meet Semi-Supervised Learning ( http://arxiv.org/abs/2207.01066v1 )

ライセンス: CC BY 4.0
Jianfeng Wang, Thomas Lukasiewicz, Daniela Massiceti, Xiaolin Hu, Vladimir Pavlovic, Alexandros Neophytou(参考訳) 半教師付き学習(SSL)は近年広く研究されており、ラベル付きデータへの依存を減らすためにラベル付きデータを活用する効果的な方法である。 本研究では,ニューラルネットワーク(NP)を半教師付き画像分類タスクに調整し,NP-Matchと呼ばれる新しい手法を提案する。 NP-Matchは2つの理由でこのタスクに適している。 まず、NP-Matchは、予測を行う際のデータポイントを暗黙的に比較し、その結果、ラベルのない各データポイントの予測は、類似したラベル付きデータポイントに影響され、擬似ラベルの品質が向上する。 第二に、NP-Matchは、信頼できる擬似ラベルを持つ未ラベルのサンプルを選択するツールとして使用できる不確実性を推定することができる。 モンテカルロ(MC)のドロップアウトで実装された不確実性ベースのSSL手法と比較して、NP-Matchは計算オーバーヘッドがはるかに少ない不確実性を推定する。 我々は4つの公開データセットについて広範な実験を行い、NP-Matchは最新技術(SOTA)の結果よりも優れ、また、その上での競争結果が得られ、NP-Matchの有効性とSSLの可能性を示す。

Semi-supervised learning (SSL) has been widely explored in recent years, and it is an effective way of leveraging unlabeled data to reduce the reliance on labeled data. In this work, we adjust neural processes (NPs) to the semi-supervised image classification task, resulting in a new method named NP-Match. NP-Match is suited to this task for two reasons. Firstly, NP-Match implicitly compares data points when making predictions, and as a result, the prediction of each unlabeled data point is affected by the labeled data points that are similar to it, which improves the quality of pseudo-labels. Secondly, NP-Match is able to estimate uncertainty that can be used as a tool for selecting unlabeled samples with reliable pseudo-labels. Compared with uncertainty-based SSL methods implemented with Monte Carlo (MC) dropout, NP-Match estimates uncertainty with much less computational overhead, which can save time at both the training and the testing phases. We conducted extensive experiments on four public datasets, and NP-Match outperforms state-of-the-art (SOTA) results or achieves competitive results on them, which shows the effectiveness of NP-Match and its potential for SSL.
翻訳日:2022-07-06 08:46:08 公開日:2022-07-03
# (参考訳) 1つの検出器だけ - 視覚トランスフォーマーに基づく異なるモダリティのための統一オブジェクト検出器

You Only Need One Detector: Unified Object Detector for Different Modalities based on Vision Transformers ( http://arxiv.org/abs/2207.01071v1 )

ライセンス: CC BY 4.0
Xiaoke Shen, Zhujun Li, Jaime Canizales, Ioannis Stamos(参考訳) ほとんどのシステムは、RGB画像を処理する1つのモデルや深度画像を処理する1つのモデルなど、異なるモダリティのために異なるモデルを使用する。 一方、近年の研究では、あるモダリティの同一モデルが、相互モダリティ変換学習の助けを借りて、別のモダリティに使用できることが判明している。 本稿では,視覚トランスフォーマーと相互モダリティ伝達学習を組み合わせることで,異なるモダリティを入力として使用する場合,統一検出器の性能向上が期待できることを示す。 統一モデルは、ロボット工学のための別々のモデルや重量を維持する必要がないため、より効率的です。 ロボット工学のための統一システムの一つの応用シナリオは、 モデルアーキテクチャとモデル重みの更新がなければ、ロボット工学は、昼と夜の間にrgbカメラまたはrgbと深度センサーの両方を使用してスムーズに切り替えることができる。 SUN RGB-Dデータセットの実験によると、 我々の統一モデルは効率的であるだけでなく、SUNRGBD16カテゴリに基づくmAP50の類似またはより良い性能を持つ。 この研究で提案された新しい相互モダリティ混合法を使用する場合、我々のモデルは3.1 (52.7$\to$55.8) の絶対的な性能向上を以前の最良の結果と比較して達成できる。 コード(トレーニング/推論ログとモデルチェックポイントを含む)は以下の通りである。

Most systems use different models for different modalities, such as one model for processing RGB images and one for depth images. Meanwhile, some recent works discovered that an identical model for one modality can be used for another modality with the help of cross modality transfer learning. In this article, we further find out that by using a vision transformer together with cross/inter modality transfer learning, a unified detector can achieve better performances when using different modalities as inputs. The unified model is useful as we don't need to maintain separate models or weights for robotics, hence, it is more efficient. One application scenario of our unified system for robotics can be: without any model architecture and model weights updating, robotics can switch smoothly on using RGB camera or both RGB and Depth Sensor during the day time and Depth sensor during the night time . Experiments on SUN RGB-D dataset show: Our unified model is not only efficient, but also has a similar or better performance in terms of mAP50 based on SUNRGBD16 category: compare with the RGB only one, ours is slightly worse (52.3 $\to$ 51.9). compare with the point cloud only one, we have similar performance (52.7 $\to$ 52.8); When using the novel inter modality mixing method proposed in this work, our model can achieve a significantly better performance with 3.1 (52.7 $\to$ 55.8) absolute improvement comparing with the previous best result. Code (including training/inference logs and model checkpoints) is available: \url{https://github.com/liketheflower/YONOD.git}
翻訳日:2022-07-06 08:17:39 公開日:2022-07-03
# (参考訳) fasterai:スパースニューラルネットワークを作成するための軽量ライブラリ

FasterAI: A Lightweight Library for Creating Sparse Neural Networks ( http://arxiv.org/abs/2207.01088v1 )

ライセンス: CC BY 4.0
Nathan Hubens(参考訳) FasterAIはPyTorchベースのライブラリで、スパシフィケーション、プルーニング、知識蒸留、正規化といったディープニューラルネットワーク圧縮技術の利用を促進することを目的としている。 このライブラリは、迅速な実装と実験を可能にする目的で構築されている。 特に圧縮技術では,fastaiやPytorch Lightningといったライブラリのコールバックシステムを活用して,ユーザフレンドリでハイレベルなAPIを実現している。 FasterAIの主な資産は、軽量で、強力で、使用の単純さです。 実際、非常に粒度の細かい方法で開発されたため、ユーザーは異なるパラメータの組み合わせを使って何千ものユニークな実験を作成できる。 本稿では,ライブラリのコアとなるFasterAIのスパース化機能に注目した。 FasterAIでニューラルネットワークのスパーシフィケーションを実行するには、従来のトレーニングループで1行追加のコードのみを必要とするが、Lottery Ticket仮説実験のような最先端のテクニックを実行することができる。

FasterAI is a PyTorch-based library, aiming to facilitate the utilization of deep neural networks compression techniques such as sparsification, pruning, knowledge distillation, or regularization. The library is built with the purpose of enabling quick implementation and experimentation. More particularly, compression techniques are leveraging Callback systems of libraries such as fastai and Pytorch Lightning to bring a user-friendly and high-level API. The main asset of FasterAI is its lightweight, yet powerful, simplicity of use. Indeed, because it was developed in a very granular way, users can create thousands of unique experiments by using different combinations of parameters. In this paper, we focus on the sparsifying capabilities of FasterAI, which represents the core of the library. Performing sparsification of a neural network in FasterAI only requires a single additional line of code in the traditional training loop, yet allows to perform state-of-the-art techniques such as Lottery Ticket Hypothesis experiments
翻訳日:2022-07-06 07:58:32 公開日:2022-07-03
# (参考訳) ニューラルネットワーク上の折りたたみ

Folding over Neural Networks ( http://arxiv.org/abs/2207.01090v1 )

ライセンス: CC BY 4.0
Minh Nguyen and Nicolas Wu(参考訳) ニューラルネットワークは通常、反復または手動によるメソッド呼び出しの連鎖によってトラバースされるデータ構造として表現される。 しかし、より深い分析により、構造的な再帰は代わりに使用できるため、トラバーサルはネットワーク自体の構造によって指示される。 本稿では,再帰的データ型としてニューラルネットワークを符号化し,再帰スキームパターンとしてトレーニングすることで,Haskellでそのようなアプローチを実現する方法を示す。 次に,その構造と意味論を区別するニューラルネットワークのコヒーレントな実装を促進し,構築方法とトレーニング方法の両方において構成性を実現する。

Neural networks are typically represented as data structures that are traversed either through iteration or by manual chaining of method calls. However, a deeper analysis reveals that structured recursion can be used instead, so that traversal is directed by the structure of the network itself. This paper shows how such an approach can be realised in Haskell, by encoding neural networks as recursive data types, and then their training as recursion scheme patterns. In turn, we promote a coherent implementation of neural networks that delineates between their structure and semantics, allowing for compositionality in both how they are built and how they are trained.
翻訳日:2022-07-06 07:50:54 公開日:2022-07-03
# (参考訳) 表現の多様性

Representation Heterogeneity ( http://arxiv.org/abs/2207.01091v1 )

ライセンス: CC BY 4.0
Fausto Giunchiglia and Mayukh Bagchi(参考訳) 意味的異質性(Semantic Heterogeneity)は、従来、異なるデータベースやスキーマ、あるいはデータにおいて、独立したパーティによってモデル化された場合、対象現実の表現にばらつきが存在すると理解されていた。 分散の単なる符号化は必要ではあるが、そのような分散が現れる統一基底を符号化する必要があることを考えると、表現の不均一性の問題に対処するのに十分ではない。 そこで本稿では,表現ユニティと表現多様性の共起概念という観点から,表現の不均一性の概念を紹介する。 2つの異質な表現が同じターゲットの現実をモデル化するとき、表現の統一性がある。 さらに、この2つの概念が、どのような表現の2つの層、すなわち言語と知識にまたがってどのようにインスタンス化されるかを強調します。

Semantic Heterogeneity is conventionally understood as the existence of variance in the representation of a target reality when modelled, by independent parties, in different databases, schemas and/ or data. We argue that the mere encoding of variance, while being necessary, is not sufficient enough to deal with the problem of representational heterogeneity, given that it is also necessary to encode the unifying basis on which such variance is manifested. To that end, this paper introduces a notion of Representation Heterogeneity in terms of the co-occurrent notions of Representation Unity and Representation Diversity. We have representation unity when two heterogeneous representations model the same target reality, representation diversity otherwise. In turn, this paper also highlights how these two notions get instantiated across the two layers of any representation, i.e., Language and Knowledge.
翻訳日:2022-07-06 07:33:26 公開日:2022-07-03
# (参考訳) 逆学習した潜在空間摂動による異常検出

Anomaly Detection with Adversarially Learned Perturbations of Latent Space ( http://arxiv.org/abs/2207.01106v1 )

ライセンス: CC BY 4.0
Vahid Reza Khazaie and Anthony Wong and John Taylor Jewell and Yalda Mohsenzadeh(参考訳) 異常検出は、通常のデータの分布に適合しないサンプルを特定することである。 異常なデータが利用できないため、教師付きディープニューラルネットワークのトレーニングは面倒な作業である。 したがって、教師なしのメソッドは、このタスクを解決する共通のアプローチとして好まれる。 ディープオートエンコーダは多くの教師なし異常検出法のベースとして広く採用されている。 しかし、ディープオートエンコーダの顕著な欠点は、異常検出のための表現が不十分であることだ。 本研究では,2つの競合するコンポーネント,Adversarial Distorter と Autoencoder で構成される対角的フレームワークを設計した。 逆歪器は、効果的な摂動を生成するために学習する畳み込み符号化器であり、オートエンコーダは、摂動潜在性特徴空間から画像を再構成することを目的とした深い畳み込みニューラルネットワークである。 ネットワークは、逆歪がエンコーダの潜在特徴空間に適用される摂動を生成して再構成誤差を最大化し、オートエンコーダは、これらの摂動の効果を中和して最小化しようとする、反対の目標で訓練される。 異常検出に適用すると,特徴空間に摂動を適用して意味的にリッチな表現を学習する。 提案手法は,画像およびビデオデータセットの異常検出において,既存の最先端手法よりも優れている。

Anomaly detection is to identify samples that do not conform to the distribution of the normal data. Due to the unavailability of anomalous data, training a supervised deep neural network is a cumbersome task. As such, unsupervised methods are preferred as a common approach to solve this task. Deep autoencoders have been broadly adopted as a base of many unsupervised anomaly detection methods. However, a notable shortcoming of deep autoencoders is that they provide insufficient representations for anomaly detection by generalizing to reconstruct outliers. In this work, we have designed an adversarial framework consisting of two competing components, an Adversarial Distorter, and an Autoencoder. The Adversarial Distorter is a convolutional encoder that learns to produce effective perturbations and the autoencoder is a deep convolutional neural network that aims to reconstruct the images from the perturbed latent feature space. The networks are trained with opposing goals in which the Adversarial Distorter produces perturbations that are applied to the encoder's latent feature space to maximize the reconstruction error and the autoencoder tries to neutralize the effect of these perturbations to minimize it. When applied to anomaly detection, the proposed method learns semantically richer representations due to applying perturbations to the feature space. The proposed method outperforms the existing state-of-the-art methods in anomaly detection on image and video datasets.
翻訳日:2022-07-06 07:26:47 公開日:2022-07-03
# (参考訳) 連続ラベリングによる異常検出の強化

Augment to Detect Anomalies with Continuous Labelling ( http://arxiv.org/abs/2207.01112v1 )

ライセンス: CC BY 4.0
Vahid Reza Khazaie and Anthony Wong and Yalda Mohsenzadeh(参考訳) 異常検出は、トレーニング観察と何らかの点で異なるサンプルを認識することである。 正規データの分布に従わないこれらのサンプルは、外れ値または異常と呼ばれる。 実世界の異常検出問題では、外れ値が欠如しているか、明確に定義されていないか、あるいは非常に限られたインスタンス数である。 最近の最先端のディープラーニングに基づく異常検出手法は、高い計算コスト、複雑性、不安定なトレーニング手順、非自明な実装に苦しむため、現実のアプリケーションではデプロイが難しい。 この問題に対処するために,軽量畳み込みニューラルネットワークを訓練し,異常検出における最先端の性能を達成する,単純な学習手法を活用する。 本稿では,教師付き回帰問題として異常検出を解くことを提案する。 連続値の2つの分離可能な分布を用いて正規データと異常データをラベル付けする。 トレーニング期間中の異常サンプルの有効性を補うために,簡単な画像強調手法を用いて,異なるサンプルセットを異常として生成する。 拡張集合の分布は似ているが、通常のデータからはわずかにずれている。 したがって、これらの強化サンプル上で回帰器を訓練すると、正規および実際の異常なデータポイントに対するラベルのより分離可能な分布が得られる。 画像および映像データセットにおける異常検出実験は,最先端手法よりも提案手法が優れていることを示す。

Anomaly detection is to recognize samples that differ in some respect from the training observations. These samples which do not conform to the distribution of normal data are called outliers or anomalies. In real-world anomaly detection problems, the outliers are absent, not well defined, or have a very limited number of instances. Recent state-of-the-art deep learning-based anomaly detection methods suffer from high computational cost, complexity, unstable training procedures, and non-trivial implementation, making them difficult to deploy in real-world applications. To combat this problem, we leverage a simple learning procedure that trains a lightweight convolutional neural network, reaching state-of-the-art performance in anomaly detection. In this paper, we propose to solve anomaly detection as a supervised regression problem. We label normal and anomalous data using two separable distributions of continuous values. To compensate for the unavailability of anomalous samples during training time, we utilize straightforward image augmentation techniques to create a distinct set of samples as anomalies. The distribution of the augmented set is similar but slightly deviated from the normal data, whereas real anomalies are expected to have an even further distribution. Therefore, training a regressor on these augmented samples will result in more separable distributions of labels for normal and real anomalous data points. Anomaly detection experiments on image and video datasets show the superiority of the proposed method over the state-of-the-art approaches.
翻訳日:2022-07-06 07:15:55 公開日:2022-07-03
# (参考訳) 線形力学系における物理形ニューラルネットワークの誤差境界評価

Evaluating Error Bound for Physics-Informed Neural Networks on Linear Dynamical Systems ( http://arxiv.org/abs/2207.01114v1 )

ライセンス: CC BY 4.0
Shuheng Liu, Xiyue Huang, Pavlos Protopapas(参考訳) 物理インフォームドニューラルネットワークを用いた微分方程式の解法に関する研究が盛んに行われている。 この手法は多くのケースで有利であることが証明されているが、大きな批判は分析誤差境界の欠如にある。 したがって、有限差分法のような従来の方法よりも信頼性が低い。 本稿では、微分方程式の線形系上で訓練された物理形ニューラルネットワークに対して、数学的に明示的な誤差境界を導出できることを示す。 より重要なことに、そのような誤差境界の評価は、関心領域上の微分方程式の剰無限ノルムの評価のみを必要とする。 本研究は,損失関数として知られているネットワーク残差と,一般に不明な解の絶対誤差とのリンクを示す。 私たちのアプローチは半現象論的であり、実際のソリューションやネットワークの複雑さやアーキテクチャに関する知識とは無関係です。 線形ODEと線形ODEのシステム上で製造された解法を用いて,誤差評価アルゴリズムを実証的に検証し,実際の誤差が導出境界内にあることを実証する。

There have been extensive studies on solving differential equations using physics-informed neural networks. While this method has proven advantageous in many cases, a major criticism lies in its lack of analytical error bounds. Therefore, it is less credible than its traditional counterparts, such as the finite difference method. This paper shows that one can mathematically derive explicit error bounds for physics-informed neural networks trained on a class of linear systems of differential equations. More importantly, evaluating such error bounds only requires evaluating the differential equation residual infinity norm over the domain of interest. Our work shows a link between network residuals, which is known and used as loss function, and the absolute error of solution, which is generally unknown. Our approach is semi-phenomonological and independent of knowledge of the actual solution or the complexity or architecture of the network. Using the method of manufactured solution on linear ODEs and system of linear ODEs, we empirically verify the error evaluation algorithm and demonstrate that the actual error strictly lies within our derived bound.
翻訳日:2022-07-06 07:03:51 公開日:2022-07-03
# (参考訳) USHER: 身近な体験をリプレイするアンバイアスなサンプリング

USHER: Unbiased Sampling for Hindsight Experience Replay ( http://arxiv.org/abs/2207.01115v1 )

ライセンス: CC BY 4.0
Liam Schramm, Yunfu Deng, Edgar Granados, Abdeslam Boularias(参考訳) 報酬の希薄化は、強化学習(RL)における長年の課題である。 Hindsight Experience Replay (HER)は、ある目標に対して失敗した軌道を他の目標に対して成功した軌道として再利用することでこの問題に対処する。 これにより、報酬の最小密度と、複数の目標に対する一般化の両方が可能となる。 しかし、この戦略は確率的環境における悪い結果の可能性を過小評価するため、バイアス値関数をもたらすことが知られている。 本稿では,決定論的環境の性能を犠牲にすることなく,漸近的に偏りのない重要サンプリングに基づくアルゴリズムを提案する。 我々は,高次元確率環境への挑戦を含む,様々なロボットシステムにおいてその効果を示す。

Dealing with sparse rewards is a long-standing challenge in reinforcement learning (RL). Hindsight Experience Replay (HER) addresses this problem by reusing failed trajectories for one goal as successful trajectories for another. This allows for both a minimum density of reward and for generalization across multiple goals. However, this strategy is known to result in a biased value function, as the update rule underestimates the likelihood of bad outcomes in a stochastic environment. We propose an asymptotically unbiased importance-sampling-based algorithm to address this problem without sacrificing performance on deterministic environments. We show its effectiveness on a range of robotic systems, including challenging high dimensional stochastic environments.
翻訳日:2022-07-06 05:46:25 公開日:2022-07-03
# 言語学によるタンパク質言語モデルの発展 : 解釈性向上のためのロードマップ

Advancing protein language models with linguistics: a roadmap for improved interpretability ( http://arxiv.org/abs/2207.00982v1 )

ライセンス: Link先を確認
Mai Ha Vu, Rahmad Akbar, Philippe A. Robert, Bartlomiej Swiatczak, Victor Greiff, Geir Kjetil Sandve, Dag Trygve Truslew Haug(参考訳) 深層ニューラルネットワークに基づく言語モデル(lms)は、タンパク質の機能を予測するために、大規模タンパク質配列データにますます適用されている。 しかしながら、主にブラックボックスモデルであり、解釈が難しいため、現在のタンパク質 LM アプローチは、配列関数マッピングの基本的な理解に寄与せず、規則に基づく生物療法薬の開発を妨げる。 我々は、自然言語データから分析規則を抽出する分野である言語学から引き出されたガイダンスが、関連するドメイン固有のルールを学習したより解釈可能なタンパク質LMの構築に役立つと論じる。 タンパク質配列データと言語配列データの違いは、自然言語lmsと比較して、タンパク質lmsにドメイン固有の知識を統合する必要がある。 ここでは,トレーニングデータ,トークン化,トークン埋め込み,シーケンス埋め込み,モデル解釈に関して,プロテインlmパイプライン選択のための言語学的ロードマップを提供する。 言語学とタンパク質 LM を組み合わせることで、シークエンス-ファンクション関係に基づく生物学的メカニズムを明らかにする可能性を持つ次世代の解釈可能な機械学習モデルの開発が可能になる。

Deep neural-network-based language models (LMs) are increasingly applied to large-scale protein sequence data to predict protein function. However, being largely blackbox models and thus challenging to interpret, current protein LM approaches do not contribute to a fundamental understanding of sequence-function mappings, hindering rule-based biotherapeutic drug development. We argue that guidance drawn from linguistics, a field specialized in analytical rule extraction from natural language data, can aid with building more interpretable protein LMs that have learned relevant domain-specific rules. Differences between protein sequence data and linguistic sequence data require the integration of more domain-specific knowledge in protein LMs compared to natural language LMs. Here, we provide a linguistics-based roadmap for protein LM pipeline choices with regard to training data, tokenization, token embedding, sequence embedding, and model interpretation. Combining linguistics with protein LMs enables the development of next-generation interpretable machine learning models with the potential of uncovering the biological mechanisms underlying sequence-function relationships.
翻訳日:2022-07-05 16:54:19 公開日:2022-07-03
# 生成的逆ネットワークを用いた学習ノイズ:古典的ランダムプロセスモデルによる探索

Learning Noise with Generative Adversarial Networks: Explorations with Classical Random Process Models ( http://arxiv.org/abs/2207.01110v1 )

ライセンス: Link先を確認
Adam Wunderlich, Jack Sklar(参考訳) 物理過程から生じるランダムノイズは、測定の固有の特性であり、ほとんどの信号処理タスクの制限要因である。 データ駆動信号モデリングにおけるGAN(Generative Adversarial Network)に対する近年の関心を考えると、GANがターゲットデータセットのノイズを忠実に再現できる範囲を決定することが重要である。 本稿では,この問題を時系列で解明することを目的とした実証的な調査を行う。 すなわち,2つの汎用時系列GAN,直接時系列モデル,および短時間フーリエ変換(STFT)表現を用いた画像ベースモデルを用いて,電子・通信システムでよく見られる幅広いノイズ(帯域制限熱雑音,電力法ノイズ,ショットノイズ,インパルスノイズ)を学習する能力について検討する。 ganは、多くのノイズタイプを学習できるが、ganアーキテクチャがノイズのいくつかの側面、例えば、極端な異常値を持つ衝動時系列に適していない場合、予測的に苦労する。 本研究は, 時系列GANに対する現在のアプローチの能力と潜在的な限界に関する知見と, 今後の研究分野のハイライトを提供するものである。 さらに,テストのバッテリは時系列の深部生成モデルの開発に役立つ有用なベンチマークを提供する。

Random noise arising from physical processes is an inherent characteristic of measurements and a limiting factor for most signal processing tasks. Given the recent interest in generative adversarial networks (GANs) for data-driven signal modeling, it is important to determine to what extent GANs can faithfully reproduce noise in target data sets. In this paper, we present an empirical investigation that aims to shed light on this issue for time series. Namely, we examine the ability of two general-purpose time-series GANs, a direct time-series model and an image-based model using a short-time Fourier transform (STFT) representation, to learn a broad range of noise types commonly encountered in electronics and communication systems: band-limited thermal noise, power law noise, shot noise, and impulsive noise. We find that GANs are capable of learning many noise types, although they predictably struggle when the GAN architecture is not well suited to some aspects of the noise, e.g., impulsive time-series with extreme outliers. Our findings provide insights into the capabilities and potential limitations of current approaches to time-series GANs and highlight areas for further research. In addition, our battery of tests provides a useful benchmark to aid the development of deep generative models for time series.
翻訳日:2022-07-05 16:54:01 公開日:2022-07-03
# 3次元顔形状は連続感情と行動単位強度を認識するのに十分か?

Are 3D Face Shapes Expressive Enough for Recognising Continuous Emotions and Action Unit Intensities? ( http://arxiv.org/abs/2207.01113v1 )

ライセンス: Link先を確認
Mani Kumar Tellamekala, \"Omer S\"umer, Bj\"orn W. Schuller, Elisabeth Andr\'e, Timo Giesbrecht, Michel Valstar(参考訳) 顔ビデオから連続的な感情と行動単位(AU)の強度を認識するには、表現力学の空間的および時間的理解が必要である。 既存の作品は主に2d顔の外観に頼り、そのようなダイナミックスを抽出している。 本研究は,パラメトリック3次元顔形状アライメントモデルに基づく有望な代替案に焦点をあてる。 最先端の2次元外観モデルと比較し,valence-arousalおよびau強度の推定における表現力の高い3d顔形状について理解することを目的とした。 我々は,最近の3次元顔アライメントモデルであるExpNet, 3DDFA-V2, DECA, EMOCAをベンチマークした。 valence-arousal estimationでは、3d顔モデルの表現特性は従来より一貫して優れており、sewaとavec 2019 ces corporaでは.739と.574の平均一致相関を示した。 また, BP4DおよびdisFAデータセットのAU強度推定において, 3次元顔形状がAU4, 6, 10, 12, 25の2次元顔形状と同等であるが, AUの集合全体ではないことを報告した。 この違いを理解するために,valence-arousal と aus の対応分析を行い,valence-arousal の正確な予測には少数の aus の知識が必要であることを指摘した。

Recognising continuous emotions and action unit (AU) intensities from face videos requires a spatial and temporal understanding of expression dynamics. Existing works primarily rely on 2D face appearances to extract such dynamics. This work focuses on a promising alternative based on parametric 3D face shape alignment models, which disentangle different factors of variation, including expression-induced shape variations. We aim to understand how expressive 3D face shapes are in estimating valence-arousal and AU intensities compared to the state-of-the-art 2D appearance-based models. We benchmark four recent 3D face alignment models: ExpNet, 3DDFA-V2, DECA, and EMOCA. In valence-arousal estimation, expression features of 3D face models consistently surpassed previous works and yielded an average concordance correlation of .739 and .574 on SEWA and AVEC 2019 CES corpora, respectively. We also study how 3D face shapes performed on AU intensity estimation on BP4D and DISFA datasets, and report that 3D face features were on par with 2D appearance features in AUs 4, 6, 10, 12, and 25, but not the entire set of AUs. To understand this discrepancy, we conduct a correspondence analysis between valence-arousal and AUs, which points out that accurate prediction of valence-arousal may require the knowledge of only a few AUs.
翻訳日:2022-07-05 16:50:27 公開日:2022-07-03
# マルチデバイスエッジAIのためのタスク指向センシング,計算,通信統合

Task-Oriented Sensing, Computation, and Communication Integration for Multi-Device Edge AI ( http://arxiv.org/abs/2207.00969v1 )

ライセンス: Link先を確認
Dingzhu Wen, Peixi Liu, Guangxu Zhu, Yuanming Shi, Jie Xu, Yonina C. Eldar, and Shuguang Cui(参考訳) 本稿では,ネットワークエッジにおける低レイテンシなインテリジェントサービスを実現するために,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,マルチデバイスエッジ人工知能(AI)システムについて検討する。 本システムでは、複数のISACデバイスがレーダセンシングを行い、マルチビューデータを取得し、抽出した特徴の定量化バージョンを集中エッジサーバにオフロードし、カスケードされた特徴ベクトルに基づいてモデル推論を行う。 この設定と分類タスクを考慮することで、正規化共分散の下でユークリッド特徴空間内の2つのクラスの距離として定義される判別利得という近似的だがトラクタブルな計量を採用することにより、推論精度を測定する。 識別利得を最大化するため,我々はまず,それに対するセンシング,計算,通信プロセスの影響を,導出したクローズドフォーム式で定量化する。 そして、3つのプロセスを共同設計に統合することで、エンドツーエンドのタスク指向リソース管理手法を開発する。 しかし、この統合されたセンシング、計算、通信(ISCC)設計アプローチは、チャネルゲイン、量子化レベル、および生成された特徴部分集合の複雑な形態の識別利得とデバイスの不均一性のために、非凸最適化の問題を引き起こす。 顕著なことに、非凸問題の解法は比例法に基づいて最適に解ける。 これにより、センシングと通信のための複数のデバイスにおける送信電力と時間割当を共同で決定する最適なisccスキームと、計算歪制御のための量子化ビット割当てが与えられる。 人間の運動認識を具体的ai推論タスクとして利用することにより,提案手法の性能を検証するための広範囲な実験を行った。

This paper studies a new multi-device edge artificial-intelligent (AI) system, which jointly exploits the AI model split inference and integrated sensing and communication (ISAC) to enable low-latency intelligent services at the network edge. In this system, multiple ISAC devices perform radar sensing to obtain multi-view data, and then offload the quantized version of extracted features to a centralized edge server, which conducts model inference based on the cascaded feature vectors. Under this setup and by considering classification tasks, we measure the inference accuracy by adopting an approximate but tractable metric, namely discriminant gain, which is defined as the distance of two classes in the Euclidean feature space under normalized covariance. To maximize the discriminant gain, we first quantify the influence of the sensing, computation, and communication processes on it with a derived closed-form expression. Then, an end-to-end task-oriented resource management approach is developed by integrating the three processes into a joint design. This integrated sensing, computation, and communication (ISCC) design approach, however, leads to a challenging non-convex optimization problem, due to the complicated form of discriminant gain and the device heterogeneity in terms of channel gain, quantization level, and generated feature subsets. Remarkably, the considered non-convex problem can be optimally solved based on the sum-of-ratios method. This gives the optimal ISCC scheme, that jointly determines the transmit power and time allocation at multiple devices for sensing and communication, as well as their quantization bits allocation for computation distortion control. By using human motions recognition as a concrete AI inference task, extensive experiments are conducted to verify the performance of our derived optimal ISCC scheme.
翻訳日:2022-07-05 16:46:33 公開日:2022-07-03
# 災害保険市場における政府介入--強化学習アプローチ

Government Intervention in Catastrophe Insurance Markets: A Reinforcement Learning Approach ( http://arxiv.org/abs/2207.01010v1 )

ライセンス: Link先を確認
Menna Hassan, Nourhan Sakr and Arthur Charpentier(参考訳) 本稿では, 個人, 保険会社, 政府という3種類のエージェントによる, マイクロファウンデーション社会の連続的なゲームを設計する。 経済文献のほかに、多武装の盗賊問題と密接に関連する強化学習(Reinforcement Learning, RL)を用いて、1ドルあたりの政策介入の提案による福祉効果を学習する。 本論文は,提案手法をケースバイケースで比較することにより,提案手法の有効性を厳密に議論する。 本論文は,実現可能性研究を支援する校正理論モデルを用いたアルゴリズム政策評価の枠組みを提供する。

This paper designs a sequential repeated game of a micro-founded society with three types of agents: individuals, insurers, and a government. Nascent to economics literature, we use Reinforcement Learning (RL), closely related to multi-armed bandit problems, to learn the welfare impact of a set of proposed policy interventions per $1 spent on them. The paper rigorously discusses the desirability of the proposed interventions by comparing them against each other on a case-by-case basis. The paper provides a framework for algorithmic policy evaluation using calibrated theoretical models which can assist in feasibility studies.
翻訳日:2022-07-05 16:46:02 公開日:2022-07-03
# 会話型asrのための音声-文間クロスモーダル学習による音響文脈表現の活用

Leveraging Acoustic Contextual Representation by Audio-textual Cross-modal Learning for Conversational ASR ( http://arxiv.org/abs/2207.01039v1 )

ライセンス: Link先を確認
Kun Wei, Yike Zhang, Sining Sun, Lei Xie, Long Ma(参考訳) 文脈情報を活用することは、会話自動音声認識(ASR)の性能を向上させる直感的なアイデアである。 先行研究は通常、過去の発話の認識仮説を先行する文脈として採用しており、これは必然的な歴史的認識誤りによる現在の仮説に偏っている可能性がある。 この問題を回避するために,先行する音声から文脈表現を直接学習する音声-文間クロスモーダル表現抽出器を提案する。 具体的には、2つのモーダル関連エンコーダで構成され、音声と対応するテキストから高レベル遅延特徴を抽出し、音声とテキストの相関関係を学習することを目的としたクロスモーダルエンコーダである。 入力トークンと各モードの入力シーケンスをランダムにマスキングする。 次に、クロスモーダルエンコーダのモードレベルctc損失を伴うトークンミスまたはモーダルミス予測を行う。 したがって、モデルは特定のモダリティにおける双方向のコンテキスト依存性だけでなく、異なるモダリティ間の関係もキャプチャする。 そして、会話型ASRシステムのトレーニング中に、抽出器を凍結して先行する音声のテキスト表現を抽出し、その表現を注意機構を介してASRデコーダに供給されるコンテキストとして使用する。 提案手法の有効性は,いくつかのマンダリン会話コーパス上で検証され,magicdataデータセットでは最大16%の文字誤り率(cer)が達成される。

Leveraging context information is an intuitive idea to improve performance on conversational automatic speech recognition(ASR). Previous works usually adopt recognized hypotheses of historical utterances as preceding context, which may bias the current recognized hypothesis due to the inevitable historicalrecognition errors. To avoid this problem, we propose an audio-textual cross-modal representation extractor to learn contextual representations directly from preceding speech. Specifically, it consists of two modal-related encoders, extracting high-level latent features from speech and the corresponding text, and a cross-modal encoder, which aims to learn the correlation between speech and text. We randomly mask some input tokens and input sequences of each modality. Then a token-missing or modal-missing prediction with a modal-level CTC loss on the cross-modal encoder is performed. Thus, the model captures not only the bi-directional context dependencies in a specific modality but also relationships between different modalities. Then, during the training of the conversational ASR system, the extractor will be frozen to extract the textual representation of preceding speech, while such representation is used as context fed to the ASR decoder through attention mechanism. The effectiveness of the proposed approach is validated on several Mandarin conversation corpora and the highest character error rate (CER) reduction up to 16% is achieved on the MagicData dataset.
翻訳日:2022-07-05 16:31:23 公開日:2022-07-03
# DiSCoMaT: 材料科学論文における表からの遠隔監視合成抽出

DiSCoMaT: Distantly Supervised Composition Extraction from Tables in Material Science Articles ( http://arxiv.org/abs/2207.01079v1 )

ライセンス: Link先を確認
Tanishq Gupta, Mohd Zaki, N. M. Anoop Krishnan, Mausam(参考訳) 科学領域におけるkbのキュレーションにおける重要な要素は、ドメインの公開論文の表からの情報抽出である -- テーブルは重要な情報(しばしば数値)を持ち、記事の包括的な機械理解のために適切に抽出されなければならない。 既存の表抽出器は、科学的な表では知られていないテーブル構造とフォーマットの事前知識を前提としている。 本研究では, 材料(ガラス, 合金など)の組成を抽出する, 具体的なテーブル抽出問題について検討する。 まず, 材料科学研究者は, 表理解と構成抽出にインテリジェントなモデルを必要とする, 様々なテーブルスタイルで類似した構成を整理する。 その結果,この新たなタスクをMLコミュニティの課題として定義し,4,408の遠隔教師付きテーブルと1,475の手動アノテートとテストテーブルからなるトレーニングデータセットを作成する。 また、複数のグラフニューラルネットワークとタスク固有の正規表現、特徴、制約を組み合わせた、この特定のタスクを指向した強力なベースラインであるDiSCoMaTを提案する。 DiSCoMaTは最近のテーブル処理アーキテクチャよりも大幅に優れていた。

A crucial component in the curation of KB for a scientific domain is information extraction from tables in the domain's published articles -- tables carry important information (often numeric), which must be adequately extracted for a comprehensive machine understanding of an article. Existing table extractors assume prior knowledge of table structure and format, which may not be known in scientific tables. We study a specific and challenging table extraction problem: extracting compositions of materials (e.g., glasses, alloys). We first observe that material science researchers organize similar compositions in a wide variety of table styles, necessitating an intelligent model for table understanding and composition extraction. Consequently, we define this novel task as a challenge for the ML community and create a training dataset comprising 4,408 distantly supervised tables, along with 1,475 manually annotated dev and test tables. We also present DiSCoMaT, a strong baseline geared towards this specific task, which combines multiple graph neural networks with several task-specific regular expressions, features, and constraints. We show that DiSCoMaT outperforms recent table processing architectures by significant margins.
翻訳日:2022-07-05 16:31:00 公開日:2022-07-03
# ブラインド超解像のための劣化誘導型メタ修復ネットワーク

Degradation-Guided Meta-Restoration Network for Blind Super-Resolution ( http://arxiv.org/abs/2207.00943v1 )

ライセンス: Link先を確認
Fuzhi Yang, Huan Yang, Yanhong Zeng, Jianlong Fu, Hongtao Lu(参考訳) ブラインド・スーパーレゾリューション(SR)は、低解像度(LR)画像から高品質な視覚テクスチャを復元することを目的としている。 この課題は、現実世界における複雑な画像劣化の課題のため、極めて困難である。 既存のsrアプローチは、事前定義されたぼかしカーネルまたは固定ノイズを前提としており、困難なケースではこれらのアプローチを制限する。 本稿では,実例に対する画像復元を容易にするブラインド超解像(dmsr)のための劣化誘導型メタ復元ネットワークを提案する。 DMSRは分解抽出器とメタ修復モジュールから構成される。 抽出器はLR入力の劣化を推定し、メタ復元モジュールを誘導し、フライ時に異なる劣化に対する復元パラメータを予測する。 DMSRは、新しい劣化一貫性損失と再構成損失によって共同最適化される。 このような最適化により、DMSRは3つの広く使用されているベンチマークにおいて、SOTAよりも大きなマージンで優れている。 16名の被験者を含むユーザスタディは、現実世界の盲目SRタスクにおけるDMSRの優位性をさらに検証する。

Blind super-resolution (SR) aims to recover high-quality visual textures from a low-resolution (LR) image, which is usually degraded by down-sampling blur kernels and additive noises. This task is extremely difficult due to the challenges of complicated image degradations in the real-world. Existing SR approaches either assume a predefined blur kernel or a fixed noise, which limits these approaches in challenging cases. In this paper, we propose a Degradation-guided Meta-restoration network for blind Super-Resolution (DMSR) that facilitates image restoration for real cases. DMSR consists of a degradation extractor and meta-restoration modules. The extractor estimates the degradations in LR inputs and guides the meta-restoration modules to predict restoration parameters for different degradations on-the-fly. DMSR is jointly optimized by a novel degradation consistency loss and reconstruction losses. Through such an optimization, DMSR outperforms SOTA by a large margin on three widely-used benchmarks. A user study including 16 subjects further validates the superiority of DMSR in real-world blind SR tasks.
翻訳日:2022-07-05 16:29:05 公開日:2022-07-03
# ロバストな非教師なし低光度強調のためのサイクル対話型生成逆ネットワーク

Cycle-Interactive Generative Adversarial Network for Robust Unsupervised Low-Light Enhancement ( http://arxiv.org/abs/2207.00965v1 )

ライセンス: Link先を確認
Zhangkai Ni, Wenhan Yang, Hanli Wang, Shiqi Wang, Lin Ma, Sam Kwong(参考訳) ペアトレーニングデータへの適合に関する基本的な制限を取り除き、最近の教師なしの低光度強調法は、画像の照明とコントラストの調整に優れている。 しかし、教師なしの低光度強調では、詳細な信号の監督の欠如によるノイズ抑制問題は、現実のアプリケーションにおけるこれらの方法の幅広い展開を妨げている。 そこで本研究では,低光度画像間の照明分布を良好に伝達するだけでなく,周期的強調・劣化過程における現実的なノイズの抑制・合成など,2領域間の詳細な信号操作を行うことのできる,教師なし低光画像強調のための新しいサイクル対話型生成逆ネットワーク(cigan)を提案する。 特に,提案する低光誘導変換は,強調gan生成器(egan)から劣化gan生成器(dgan)へ低光画像の特徴をフィードフォワードする。 実際の低照度画像の学習情報により、dGANはより現実的な多彩な照明とコントラストを低照度画像で合成することができる。 さらに、dGANの特徴ランダム化摂動モジュールは、特徴ランダム性を高めて多様な特徴分布を生成することを学び、合成した低照度画像を現実的な雑音を含むように説得する。 CIGANでは,提案手法の優位性と各モジュールの有効性が実証された。

Getting rid of the fundamental limitations in fitting to the paired training data, recent unsupervised low-light enhancement methods excel in adjusting illumination and contrast of images. However, for unsupervised low light enhancement, the remaining noise suppression issue due to the lacking of supervision of detailed signal largely impedes the wide deployment of these methods in real-world applications. Herein, we propose a novel Cycle-Interactive Generative Adversarial Network (CIGAN) for unsupervised low-light image enhancement, which is capable of not only better transferring illumination distributions between low/normal-light images but also manipulating detailed signals between two domains, e.g., suppressing/synthesizing realistic noise in the cyclic enhancement/degradation process. In particular, the proposed low-light guided transformation feed-forwards the features of low-light images from the generator of enhancement GAN (eGAN) into the generator of degradation GAN (dGAN). With the learned information of real low-light images, dGAN can synthesize more realistic diverse illumination and contrast in low-light images. Moreover, the feature randomized perturbation module in dGAN learns to increase the feature randomness to produce diverse feature distributions, persuading the synthesized low-light images to contain realistic noise. Extensive experiments demonstrate both the superiority of the proposed method and the effectiveness of each module in CIGAN.
翻訳日:2022-07-05 16:28:48 公開日:2022-07-03
# 変分深部画像復元

Variational Deep Image Restoration ( http://arxiv.org/abs/2207.01074v1 )

ライセンス: Link先を確認
Jae Woong Soh, Nam Ik Cho(参考訳) 本稿では,画像復元のための新しい変分推論フレームワークと,提案フレームワークで記述した復元問題を解決する畳み込みニューラルネットワーク(CNN)構造を提案する。 初期のCNNベースの画像復元手法は、主にネットワークアーキテクチャ設計や、劣化モデルが知られているか想定されている非盲検シナリオによるトレーニング戦略に重点を置いていた。 現実世界のアプリケーションに一歩近づくために、CNNはさまざまな劣化を含むデータセット全体を盲目的にトレーニングしている。 しかし、多様に劣化した画像が与えられた高品質画像の条件分布は、単一のcnnで学習するには複雑すぎる。 そのため、CNNを訓練するための事前情報を提供する方法もいくつかある。 従来のアプローチと異なり,ベイズ的視点に基づく修復の目的と目標の再構成の方法に重点を置いている。 具体的には,提案手法は,元の後部推論問題を緩和し,管理可能なサブプロブレムを改良する。 その結果, 提案手法は, 従来のものと比べ, いくつかの復元問題の性能向上を図っている。 具体的には,gaussian denoising,real-world noise reduction,blind image super- resolution,jpeg compression artifacts reductionにおける最先端性能を提供する。

This paper presents a new variational inference framework for image restoration and a convolutional neural network (CNN) structure that can solve the restoration problems described by the proposed framework. Earlier CNN-based image restoration methods primarily focused on network architecture design or training strategy with non-blind scenarios where the degradation models are known or assumed. For a step closer to real-world applications, CNNs are also blindly trained with the whole dataset, including diverse degradations. However, the conditional distribution of a high-quality image given a diversely degraded one is too complicated to be learned by a single CNN. Therefore, there have also been some methods that provide additional prior information to train a CNN. Unlike previous approaches, we focus more on the objective of restoration based on the Bayesian perspective and how to reformulate the objective. Specifically, our method relaxes the original posterior inference problem to better manageable sub-problems and thus behaves like a divide-and-conquer scheme. As a result, the proposed framework boosts the performance of several restoration problems compared to the previous ones. Specifically, our method delivers state-of-the-art performance on Gaussian denoising, real-world noise reduction, blind image super-resolution, and JPEG compression artifacts reduction.
翻訳日:2022-07-05 16:28:24 公開日:2022-07-03
# 画像復元深層ニューラルネットワークのための訓練パッチ解析とマイニングスキル

Training Patch Analysis and Mining Skills for Image Restoration Deep Neural Networks ( http://arxiv.org/abs/2207.01075v1 )

ライセンス: Link先を確認
Jae Woong Soh, Nam Ik Cho(参考訳) 深層畳み込みニューラルネットワーク(CNN)に基づく画像復元手法は多数存在する。 しかしながら、この話題に関する文献のほとんどはネットワークアーキテクチャと損失関数に焦点が当てられているが、トレーニング方法に関する詳細は明かされていない。 したがって、同じ結果を得るためには、隠れた訓練スキルを知る必要があるため、容易に再現できない作品もある。 トレーニングデータセットに特化するために、トレーニングイメージパッチの用意と順序付けについて論じる作業はほとんどない。 さらに、実際のシーンの復元ネットワークをトレーニングするためには、新しいデータセットをキャプチャするコストも高い。 したがって、トレーニングデータの準備と選択について研究する必要があると考えられる。 そこで本研究では,訓練パッチの解析を行い,異なるパッチ抽出法の影響について検討する。 最終的に,与えられた訓練画像からのパッチ抽出のためのガイドラインを提案する。

There have been numerous image restoration methods based on deep convolutional neural networks (CNNs). However, most of the literature on this topic focused on the network architecture and loss functions, while less detailed on the training methods. Hence, some of the works are not easily reproducible because it is required to know the hidden training skills to obtain the same results. To be specific with the training dataset, few works discussed how to prepare and order the training image patches. Moreover, it requires a high cost to capture new datasets to train a restoration network for the real-world scene. Hence, we believe it is necessary to study the preparation and selection of training data. In this regard, we present an analysis of the training patches and explore the consequences of different patch extraction methods. Eventually, we propose a guideline for the patch extraction from given training images.
翻訳日:2022-07-05 16:27:07 公開日:2022-07-03
# ジェスチャオーサリング空間:没入型仮想環境における仮想物体把握のためのカスタマイズされたハンドジェスチャのオーサリング

The Gesture Authoring Space: Authoring Customised Hand Gestures for Grasping Virtual Objects in Immersive Virtual Environments ( http://arxiv.org/abs/2207.01092v1 )

ライセンス: Link先を確認
Alexander Sch\"afer, Gerd Reis, Didier Stricker(参考訳) 自然なユーザインターフェースが増加しています。 Augmented、Virtual、Mixed Realityのヘッドマウントディスプレイのメーカーは、新しいセンサーを消費者製品に統合し、新たなハードウェアなしでジェスチャー認識を可能にしている。 これは仮想環境内の素手インタラクションの新たな可能性を提供する。 本研究は、仮想オブジェクトを現実世界のようにつかむことができるオブジェクト固有のグリップジェスチャーのためのハンドジェスチャーオーサリングツールを提案する。 提示されたソリューションは、ジェスチャー認識にテンプレートマッチングを使用し、カスタムのハンドジェスチャの設計と作成に技術的な知識を必要としない。 ユーザ調査では,提案手法をピンチジェスチャと仮想物体を把持するコントローラと比較した。 異なる把握技術は、正確性、タスク完了時間、ユーザビリティ、自然性の観点から比較される。 本研究は,提案手法で作成したジェスチャが,他のジェスチャよりも自然な入力モダリティとしてユーザによって認識されることを示した。

Natural user interfaces are on the rise. Manufacturers for Augmented, Virtual, and Mixed Reality head mounted displays are increasingly integrating new sensors into their consumer grade products, allowing gesture recognition without additional hardware. This offers new possibilities for bare handed interaction within virtual environments. This work proposes a hand gesture authoring tool for object specific grab gestures allowing virtual objects to be grabbed as in the real world. The presented solution uses template matching for gesture recognition and requires no technical knowledge to design and create custom tailored hand gestures. In a user study, the proposed approach is compared with the pinch gesture and the controller for grasping virtual objects. The different grasping techniques are compared in terms of accuracy, task completion time, usability, and naturalness. The study showed that gestures created with the proposed approach are perceived by users as a more natural input modality than the others.
翻訳日:2022-07-05 16:26:54 公開日:2022-07-03
# 重み付きマルチアグリゲータを用いた音声感情認識のためのグラフ同型ネットワーク

A Graph Isomorphism Network with Weighted Multiple Aggregators for Speech Emotion Recognition ( http://arxiv.org/abs/2207.00940v1 )

ライセンス: Link先を確認
Ying Hu, Yuwu Tang, Hao Huang, Liang He(参考訳) 音声感情認識(SER)は、人間とコンピュータの相互作用の重要な部分である。 本稿では,重み付き多重アグリゲータを用いたグラフ同型ネットワーク(WMA-GIN)に基づくSERネットワークを提案する。 さらに、GINを含むすべてのグラフニューラルネットワーク(GNN)構造に存在するオーバースカッシング問題を緩和するために、フルアジャセント(FA)層が採用されている。 さらに,積み重ねられたWMA-GIN層における感情情報の欠落を回避するため,多相注意機構と多層学習戦略を採用した。 提案するWMA-GINの性能を,人気のあるIEMOCAPデータセットを用いて評価した。 実験の結果, wma-ginは他のgnn法よりも優れており, 重み付け精度 (wa) の72.48% と非重み付け精度 (ua) の67.72% を達成することで, 先進的な非グラフ法と比較できることがわかった。

Speech emotion recognition (SER) is an essential part of human-computer interaction. In this paper, we propose an SER network based on a Graph Isomorphism Network with Weighted Multiple Aggregators (WMA-GIN), which can effectively handle the problem of information confusion when neighbour nodes' features are aggregated together in GIN structure. Moreover, a Full-Adjacent (FA) layer is adopted for alleviating the over-squashing problem, which is existed in all Graph Neural Network (GNN) structures, including GIN. Furthermore, a multi-phase attention mechanism and multi-loss training strategy are employed to avoid missing the useful emotional information in the stacked WMA-GIN layers. We evaluated the performance of our proposed WMA-GIN on the popular IEMOCAP dataset. The experimental results show that WMA-GIN outperforms other GNN-based methods and is comparable to some advanced non-graph-based methods by achieving 72.48% of weighted accuracy (WA) and 67.72% of unweighted accuracy (UA).
翻訳日:2022-07-05 16:23:13 公開日:2022-07-03
# 逐次キャンセラリストデコーディングのためのスケーラブル極性コード構築:グラフニューラルネットワークに基づくアプローチ

Scalable Polar Code Construction for Successive Cancellation List Decoding: A Graph Neural Network-Based Approach ( http://arxiv.org/abs/2207.01105v1 )

ライセンス: Link先を確認
Yun Liao, Seyyed Ali Hashemi, Hengjie Yang, John M. Cioffi(参考訳) 逐次キャンセレーション復号化のための極符号はビットチャネルをソートすることで効率よく実装できるが、逐次キャンセレーションリスト(SCL)復号化のための最適極符号構成は、依然として検討が待たれている。 本稿では,SCLデコーディングにおける極符号構成問題の解法として,反復メッセージパッシング(IMP)アルゴリズムというグラフニューラルネットワークに基づく強化学習アルゴリズムを提案する。 このアルゴリズムは、polar-codeのジェネレータ行列によって引き起こされるグラフの局所構造のみで動作する。 IMPモデルのサイズはブロック長とコードレートとは独立であり、長いブロック長を持つ極性コードを構築するのにスケーラブルである。 さらに、単一のトレーニングされたIMPモデルを、幅広いターゲットブロック長、コードレート、チャネル条件に直接適用することができ、対応する極性コードを生成することができる。 数値実験により、IMPアルゴリズムは、巡回冗長チェック支援SCL(CA-SCL)復号法において、古典的な構成を著しく上回る極符号構造を見出した。 IMPアルゴリズムは、SCL/CA-SCL復号に適合する他の学習ベース構築法と比較して、各目標ブロック長、符号レート、チャネル条件での個別のトレーニングを不要にすることで、トレーニングの複雑さを著しく低減しつつ、同等または低いフレームエラー率で極コードを構築する。

While constructing polar codes for successive-cancellation decoding can be implemented efficiently by sorting the bit-channels, finding optimal polar-code constructions for the successive-cancellation list (SCL) decoding in an efficient and scalable manner still awaits investigation. This paper proposes a graph neural network (GNN)-based reinforcement learning algorithm, named the iterative message-passing (IMP) algorithm, to solve the polar-code construction problem for SCL decoding. The algorithm operates only on the local structure of the graph induced by polar-code's generator matrix. The size of the IMP model is independent of the blocklength and the code rate, making it scalable to construct polar codes with long blocklengths. Moreover, a single trained IMP model can be directly applied to a wide range of target blocklengths, code rates, and channel conditions, and corresponding polar codes can be generated without separate training. Numerical experiments show that the IMP algorithm finds polar-code constructions that significantly outperform the classical constructions under cyclic-redundancy-check-aided SCL (CA-SCL) decoding. Compared to other learning-based construction methods tailored to SCL/CA-SCL decoding, the IMP algorithm constructs polar codes with comparable or lower frame error rates, while reducing the training complexity significantly by eliminating the need of separate training at each target blocklength, code rate, and channel condition.
翻訳日:2022-07-05 16:22:54 公開日:2022-07-03
# promotheus - オンラインファッションeコマースにおけるマークダウン最適化のためのエンドツーエンド機械学習フレームワーク

Promotheus: An End-to-End Machine Learning Framework for Optimizing Markdown in Online Fashion E-commerce ( http://arxiv.org/abs/2207.01137v1 )

ライセンス: Link先を確認
Eleanor Loh, Jalaj Khandelwal, Brian Regan, Duncan A. Little(参考訳) 割引プロモーションイベント(「マークダウン」)の管理は、eコマースビジネスを実行する上で重要な部分であり、ここでの非効率性は小売店の収益性を著しく阻害する。 この問題に取り組む伝統的なアプローチは、価格弾性モデリングに大きく依存している。 しかし、価格弾力性モデリングの部分的な情報の性質は、収益性を保護するための非負の責任とともに、機械学習実践者がオフラインモデル品質を測定するための戦略を定義するために、しばしば長い時間をかけて行わなければならないことを意味している。 このような状況に直面して、多くの小売業者はルールベースの手法に逆戻りし、機械学習によって捉えられる利益性を大幅に向上させます。 本稿では,小売業者の旅程の異なる段階でのマークダウンを最適化する2つの新しいエンド・ツー・エンドのマークダウン管理システムを提案する。 第1のシステムである"Ithax"は、需要推定なしで合理的な供給側価格戦略を実行し、収益管理を維持しつつ、マークダウンデータを収集する"コールドスタート"ソリューションとして有用に展開できる。 第2のシステム "Promotheus" は、価格弾力性を備えたマークダウン最適化のための完全なフレームワークを提供する。 我々は,実世界で堅牢に機能するシステムを構築する上で,我々の経験から重要な,特定のモデリングおよび検証手順について詳細に述べる。 両方のマークダウンシステムは、経験豊富な運用チームがコントロールされたオンラインテストで行った決定よりも、利益率に優れており、手動戦略に対して86%(Promotheus)と79%(Ithax)の改善が得られています。 これらのシステムはASOS.comでマークダウンを管理するためにデプロイされており、どちらのシステムも様々な小売eコマース設定で価格最適化のために実りよくデプロイできる。

Managing discount promotional events ("markdown") is a significant part of running an e-commerce business, and inefficiencies here can significantly hamper a retailer's profitability. Traditional approaches for tackling this problem rely heavily on price elasticity modelling. However, the partial information nature of price elasticity modelling, together with the non-negotiable responsibility for protecting profitability, mean that machine learning practitioners must often go through great lengths to define strategies for measuring offline model quality. In the face of this, many retailers fall back on rule-based methods, thus forgoing significant gains in profitability that can be captured by machine learning. In this paper, we introduce two novel end-to-end markdown management systems for optimising markdown at different stages of a retailer's journey. The first system, "Ithax", enacts a rational supply-side pricing strategy without demand estimation, and can be usefully deployed as a "cold start" solution to collect markdown data while maintaining revenue control. The second system, "Promotheus", presents a full framework for markdown optimization with price elasticity. We describe in detail the specific modelling and validation procedures that, within our experience, have been crucial to building a system that performs robustly in the real world. Both markdown systems achieve superior profitability compared to decisions made by our experienced operations teams in a controlled online test, with improvements of 86% (Promotheus) and 79% (Ithax) relative to manual strategies. These systems have been deployed to manage markdown at ASOS.com, and both systems can be fruitfully deployed for price optimization across a wide variety of retail e-commerce settings.
翻訳日:2022-07-05 16:22:27 公開日:2022-07-03
# 相互依存型ネットワークシステムのレジリエンスのためのグラフ学習に基づく生成設計

Graph Learning based Generative Design for Resilience of Interdependent Network Systems ( http://arxiv.org/abs/2207.00931v1 )

ライセンス: Link先を確認
Jiaxin Wu and Pingfeng Wang(参考訳) 相互接続された複合システムは通常、内部の不確実性や厳しい運用環境や地域の自然災害による外部の負の影響によって破壊される。 内部および外部の課題下での相互接続型ネットワークシステムの運用を維持するため、より優れた設計によるシステムの信頼性向上と障害復旧能力の向上からレジリエンス研究の設計が行われた。 設計の強化については、近代的なシステムの規模拡大と複雑な物理的制約により、堅牢なシステムを設計する上での課題が生じた。 これらの課題に対処し、レジリエントなシステムを効率的に設計するために、グラフ学習アルゴリズムを利用した生成設計手法を提案する。 生成設計フレームワークは、性能推定器と候補設計生成器とを含む。 ジェネレータは、既存のシステムから優れた特性をインテリジェントにマイニングし、事前に定義された性能基準を満たす新しい設計を出力することができる。 推定器は、高速反復学習プロセスにおいて、生成した設計の性能を効率的に予測できる。 IEEEデータセットのパワーシステムに基づくケーススタディでは、レジリエントな相互接続システムの設計法の適用性を示した。

Interconnected complex systems usually undergo disruptions due to internal uncertainties and external negative impacts such as those caused by harsh operating environments or regional natural disaster events. To maintain the operation of interconnected network systems under both internal and external challenges, design for resilience research has been conducted from both enhancing the reliability of the system through better designs and improving the failure recovery capabilities. As for enhancing the designs, challenges have arisen for designing a robust system due to the increasing scale of modern systems and the complicated underlying physical constraints. To tackle these challenges and design a resilient system efficiently, this study presents a generative design method that utilizes graph learning algorithms. The generative design framework contains a performance estimator and a candidate design generator. The generator can intelligently mine good properties from existing systems and output new designs that meet predefined performance criteria. While the estimator can efficiently predict the performance of the generated design for a fast iterative learning process. Case studies results based on power systems from the IEEE dataset have illustrated the applicability of the proposed method for designing resilient interconnected systems.
翻訳日:2022-07-05 16:17:53 公開日:2022-07-03
# 高速な大規模SVMトレーニングの準備 - ポーリング、並列処理、さらに多くのRAM!

Recipe for Fast Large-scale SVM Training: Polishing, Parallelism, and more RAM! ( http://arxiv.org/abs/2207.01016v1 )

ライセンス: Link先を確認
Tobias Glasmachers(参考訳) サポートベクタマシン(SVM)は、特に表データに対して、機械学習ツールボックスの標準メソッドである。 しかし、非線形カーネルSVMは、長いトレーニング時間で非常に正確な予測器を提供することが多い。 この問題は、時間とともにデータボリュームが指数関数的に増加することで悪化する。 これまでは主に、近似解法と並列gpu実装という2つのタイプの技術によって取り組まれていた。 本研究では,両手法を組み合わせて超高速なデュアルSVMソルバを設計する。 マルチコアアーキテクチャ、複数のハイエンドGPU、大規模なランダムアクセスメモリなど、現代の計算サーバの機能を完全に活用しています。 このようなマシン上では、ImageNetデータセット上の大マージン分類器を24分でトレーニングする。

Support vector machines (SVMs) are a standard method in the machine learning toolbox, in particular for tabular data. Non-linear kernel SVMs often deliver highly accurate predictors, however, at the cost of long training times. That problem is aggravated by the exponential growth of data volumes over time. It was tackled in the past mainly by two types of techniques: approximate solvers, and parallel GPU implementations. In this work, we combine both approaches to design an extremely fast dual SVM solver. We fully exploit the capabilities of modern compute servers: many-core architectures, multiple high-end GPUs, and large random access memory. On such a machine, we train a large-margin classifier on the ImageNet data set in 24 minutes.
翻訳日:2022-07-05 15:43:01 公開日:2022-07-03
# 正則化深層多タスク学習

Saliency-Regularized Deep Multi-Task Learning ( http://arxiv.org/abs/2207.01117v1 )

ライセンス: Link先を確認
Guangji Bai, Liang Zhao(参考訳) マルチタスク学習(multitask learning)は、複数の学習タスクを強制して知識を共有し、一般化能力を改善するフレームワークである。 浅いマルチタスク学習はタスクの関係を学習できるが、事前定義された機能しか扱えない。 現代の深層マルチタスク学習は、潜在機能とタスク共有を共同で学ぶことができるが、それらはタスク関係において曖昧である。 また、どの層とニューロンがタスク間で共有すべきかを事前に定義し、適応的に学習することができない。 本稿では,既存の浅層および深層マルチタスク学習シナリオの強みを補完することにより,潜在機能と明示的なタスク関係を協調的に学習する,新しいマルチタスク学習フレームワークを提案する。 具体的には,タスク関係をタスク入力勾配の類似性としてモデル化し,その等価性を理論的に解析する。 さらに,新しい正規化器によってタスク関係を明示的に学習するマルチタスク学習目標を提案する。 理論解析により,提案する正規化器により一般化可能性誤差が低減された。 複数のマルチタスク学習および画像分類ベンチマークにおいて、学習課題関連パターンにおける提案手法の有効性、効率性、合理的性を示す。

Multitask learning is a framework that enforces multiple learning tasks to share knowledge to improve their generalization abilities. While shallow multitask learning can learn task relations, it can only handle predefined features. Modern deep multitask learning can jointly learn latent features and task sharing, but they are obscure in task relation. Also, they predefine which layers and neurons should share across tasks and cannot learn adaptively. To address these challenges, this paper proposes a new multitask learning framework that jointly learns latent features and explicit task relations by complementing the strength of existing shallow and deep multitask learning scenarios. Specifically, we propose to model the task relation as the similarity between task input gradients, with a theoretical analysis of their equivalency. In addition, we innovatively propose a multitask learning objective that explicitly learns task relations by a new regularizer. Theoretical analysis shows that the generalizability error has been reduced thanks to the proposed regularizer. Extensive experiments on several multitask learning and image classification benchmarks demonstrate the proposed method effectiveness, efficiency as well as reasonableness in the learned task relation patterns.
翻訳日:2022-07-05 15:42:50 公開日:2022-07-03
# マルチフレーム点雲シミュレーションによる単一フレーム3次元物体検出の高速化

Boosting Single-Frame 3D Object Detection by Simulating Multi-Frame Point Clouds ( http://arxiv.org/abs/2207.01030v1 )

ライセンス: Link先を確認
Wu Zheng, Li Jiang, Fanbin Lu, Yangyang Ye, Chi-Wing Fu(参考訳) 単体3次元物体検出のための検出器を強化するため,マルチフレーム点雲で訓練した検出器に追従した特徴と応答をシミュレートする新しい手法を提案する。 このアプローチでは,単一フレーム検出装置のトレーニング時にのみマルチフレームポイントクラウドが必要であり,一度トレーニングすれば,単一フレームポイントクラウドのみをインプットとして検出することができる。 We design a novel Simulated Multi-Frame Single-Stage object Detector (SMF-SSD) framework to realize the approach: multi-view dense object fusion to densify ground-truth objects to generate a multi-frame point cloud; self-attention voxel distillation to facilitate one-to-many knowledge transfer from multi- to single-frame voxels; multi-scale BEV feature distillation to transfer knowledge in low-level spatial and high-level semantic BEV features; and adaptive response distillation to activate single-frame responses of high confidence and accurate localization. Waymoテストセットの実験結果から、SMF-SSDは、mAPとmAPHの両方の観点から、困難レベル1と2の全てのオブジェクトクラスに対して、最先端の1フレーム3Dオブジェクト検出器を一貫して上回っていることがわかった。

To boost a detector for single-frame 3D object detection, we present a new approach to train it to simulate features and responses following a detector trained on multi-frame point clouds. Our approach needs multi-frame point clouds only when training the single-frame detector, and once trained, it can detect objects with only single-frame point clouds as inputs during the inference. We design a novel Simulated Multi-Frame Single-Stage object Detector (SMF-SSD) framework to realize the approach: multi-view dense object fusion to densify ground-truth objects to generate a multi-frame point cloud; self-attention voxel distillation to facilitate one-to-many knowledge transfer from multi- to single-frame voxels; multi-scale BEV feature distillation to transfer knowledge in low-level spatial and high-level semantic BEV features; and adaptive response distillation to activate single-frame responses of high confidence and accurate localization. Experimental results on the Waymo test set show that our SMF-SSD consistently outperforms all state-of-the-art single-frame 3D object detectors for all object classes of difficulty levels 1 and 2 in terms of both mAP and mAPH.
翻訳日:2022-07-05 15:25:07 公開日:2022-07-03
# ジェネリックイベント境界キャプションのためのコンテキスト情報のエクスプロイト

Exploiting Context Information for Generic Event Boundary Captioning ( http://arxiv.org/abs/2207.01050v1 )

ライセンス: Link先を確認
Jinrui Zhang, Teng Wang, Feng Zheng, Ran Cheng, Ping Luo(参考訳) ジェネリックイベント境界キャプション(GEBC)は、与えられた時間境界の状態変化を記述する3つの文を生成することを目的としている。 従来の手法では、ビデオコンテキスト情報の利用が欠如している1つの境界の情報のみを処理する。 この問題に取り組むために,ビデオ全体を直接入力として,すべての境界に対するキャプションを並列に生成するモデルを設計した。 モデルは境界境界境界相互作用をモデル化することにより、時間境界毎のコンテキスト情報を学ぶことができる。 実験は文脈情報の有効性を示す。 提案手法は, テストセットの72.84点を達成し, この課題において2〜2ドルに到達した。 私たちのコードは、 \url{https://github.com/zjr2000/context-gebc} で利用可能です。

Generic Event Boundary Captioning (GEBC) aims to generate three sentences describing the status change for a given time boundary. Previous methods only process the information of a single boundary at a time, which lacks utilization of video context information. To tackle this issue, we design a model that directly takes the whole video as input and generates captions for all boundaries parallelly. The model could learn the context information for each time boundary by modeling the boundary-boundary interactions. Experiments demonstrate the effectiveness of context information. The proposed method achieved a 72.84 score on the test set, and we reached the $2^{nd}$ place in this challenge. Our code is available at: \url{https://github.com/zjr2000/Context-GEBC}
翻訳日:2022-07-05 15:24:49 公開日:2022-07-03
# ファウショット皮膚疾患分類のためのサブクラスタ・アウェアネットワーク

Sub-cluster-aware Network for Few-shot Skin Disease Classification ( http://arxiv.org/abs/2207.01072v1 )

ライセンス: Link先を確認
Shuhan LI, Xiaomeng Li, Xiaowei Xu, Kwang-Ting Cheng(参考訳) 本稿では,皮膚疾患の分類問題について検討する。 皮膚疾患画像がクラス内の複数のサブクラスターに存在すること(すなわち、ある病種内の画像の出現は異なる、複数の異なるサブグループを形成すること)の極めて重要な観察に基づいて、新しいサブクラスター認識ネットワーク、すなわちスキャンを、精度を高めた稀な皮膚疾患診断のために設計する。 数ショット学習の性能は学習した特徴エンコーダの品質に大きく依存するため、SCANの設計を導く主な原則は、特徴分布をより正確に記述するために、各クラス固有のサブクラスタ化表現学習である。 特に、SCANはデュアルブランチフレームワークに従っており、第1のブランチは、異なる皮膚疾患を識別するためのクラスワイズ機能を学ぶことであり、第2のブランチは、各クラスを複数のグループに効果的に分割して、各クラス内のサブクラスタ構造を保存する機能を学ぶことを目的としている。 第2のブランチの目的を達成するために,教師なしクラスタリングによる画像類似性を学習するために,クラスタロスを提案する。 各サブクラスタ内のサンプルが同一クラスであることを保証するため、さらに純度損失を設計し、教師なしクラスタリング結果を洗練する。 数発の皮膚疾患分類のための2つのパブリックデータセットに対する提案手法の評価を行った。 実験の結果,SD-198およびDerm7ptデータセットにおいて,我々のフレームワークが他の最先端手法よりも約2%から4%高い性能を示した。

This paper studies the few-shot skin disease classification problem. Based on a crucial observation that skin disease images often exist multiple sub-clusters within a class (i.e., the appearances of images within one class of disease vary and form multiple distinct sub-groups), we design a novel Sub-Cluster-Aware Network, namely SCAN, for rare skin disease diagnosis with enhanced accuracy. As the performance of few-shot learning highly depends on the quality of the learned feature encoder, the main principle guiding the design of SCAN is the intrinsic sub-clustered representation learning for each class so as to better describe feature distributions. Specifically, SCAN follows a dual-branch framework, where the first branch is to learn class-wise features to distinguish different skin diseases, and the second one aims to learn features which can effectively partition each class into several groups so as to preserve the sub-clustered structure within each class. To achieve the objective of the second branch, we present a cluster loss to learn image similarities via unsupervised clustering. To ensure that the samples in each sub-cluster are from the same class, we further design a purity loss to refine the unsupervised clustering results. We evaluate the proposed approach on two public datasets for few-shot skin disease classification. The experimental results validate that our framework outperforms the other state-of-the-art methods by around 2% to 4% on the SD-198 and Derm7pt datasets.
翻訳日:2022-07-05 15:24:28 公開日:2022-07-03
# 視覚言語追跡にもっと注意を向ける

Divert More Attention to Vision-Language Tracking ( http://arxiv.org/abs/2207.01076v1 )

ライセンス: Link先を確認
Mingzhe Guo, Zhipeng Zhang, Heng Fan, Liping Jing(参考訳) 複雑な視覚機能学習のためのトランスフォーマーに頼ることで、オブジェクトトラッキングは最先端(sota)の新しい標準を目撃した。 しかし、この進歩は、より大きなトレーニングデータと長いトレーニング期間によって伴い、トラッキングがますます高価になる。 本稿では,Transformer-Relianceが不要であり,純粋なConvNetは依然として競争力があり,SOTAトラッキングの達成において,より経済的かつ友好的であることを示す。 我々の解決策は、単にConvNetsを使って、マルチモーダル視覚言語(VL)追跡のパワーを解き放つことである。 その本質は、モダリティミキサー(ModaMixer)と非対称なConvNetサーチによる新しい統一適応型VL表現の学習にある。 convnetsで純粋に学んだ統一適応型vl表現は、cnnベースのsiameseトラッカーを、挑戦的なlasot(50.7% > 65.2%)上で14.5%sucで改善し、トランスフォーマーベースのsomaトラッカーを上回っても、トランスフォーマーの視覚機能に代わるシンプルで強力なものであることを示しています。 実験結果に加えて,その効果を証明するためのアプローチを理論的に分析した。 VL表現の可能性を明らかにすることで、コミュニティはVLトラッキングにもっと注意を向け、Transformer以外の将来のトラッキングの可能性を広げたいと思っています。 コードとモデルはhttps://github.com/JudasDie/SOTS.comでリリースされる。

Relying on Transformer for complex visual feature learning, object tracking has witnessed the new standard for state-of-the-arts (SOTAs). However, this advancement accompanies by larger training data and longer training period, making tracking increasingly expensive. In this paper, we demonstrate that the Transformer-reliance is not necessary and the pure ConvNets are still competitive and even better yet more economical and friendly in achieving SOTA tracking. Our solution is to unleash the power of multimodal vision-language (VL) tracking, simply using ConvNets. The essence lies in learning novel unified-adaptive VL representations with our modality mixer (ModaMixer) and asymmetrical ConvNet search. We show that our unified-adaptive VL representation, learned purely with the ConvNets, is a simple yet strong alternative to Transformer visual features, by unbelievably improving a CNN-based Siamese tracker by 14.5% in SUC on challenging LaSOT (50.7% > 65.2%), even outperforming several Transformer-based SOTA trackers. Besides empirical results, we theoretically analyze our approach to evidence its effectiveness. By revealing the potential of VL representation, we expect the community to divert more attention to VL tracking and hope to open more possibilities for future tracking beyond Transformer. Code and models will be released at https://github.com/JudasDie/SOTS.
翻訳日:2022-07-05 15:23:47 公開日:2022-07-03
# 視野を超えて:エコーと視覚で3D環境を知覚する

Beyond Visual Field of View: Perceiving 3D Environment with Echoes and Vision ( http://arxiv.org/abs/2207.01136v1 )

ライセンス: Link先を確認
Lingyu Zhu, Esa Rahtu, Hang Zhao(参考訳) 本稿では,エコーとRGB画像を用いた3次元環境の知覚とナビゲーションに焦点を当てた。 特に,複数の方向から受信したエコーを用いたrgb画像を用いて深度推定を行う。 これまでの研究とは異なり、rgbの視野を超えて、環境のかなり大きな部分の密集した深さマップを推定します。 エコーは,rgb像を補完する3次元構造について,総括的かつ非拡張的な情報を提供する。 さらに,ロボットナビゲーションにおいてエコーと広視野深度マップをどのように利用できるかを検討した。 本研究では,現実的な3次元環境であるreplicaとmatterport3dを用いて,提案手法と最近のベースラインを比較した。 実装と事前訓練されたモデルは公開されます。

This paper focuses on perceiving and navigating 3D environments using echoes and RGB image. In particular, we perform depth estimation by fusing RGB image with echoes, received from multiple orientations. Unlike previous works, we go beyond the field of view of the RGB and estimate dense depth maps for substantially larger parts of the environment. We show that the echoes provide holistic and in-expensive information about the 3D structures complementing the RGB image. Moreover, we study how echoes and the wide field-of-view depth maps can be utilised in robot navigation. We compare the proposed methods against recent baselines using two sets of challenging realistic 3D environments: Replica and Matterport3D. The implementation and pre-trained models will be made publicly available.
翻訳日:2022-07-05 15:23:18 公開日:2022-07-03
# ABAW: 合成データとマルチタスク学習の課題から学ぶ

ABAW: Learning from Synthetic Data & Multi-Task Learning Challenges ( http://arxiv.org/abs/2207.01138v1 )

ライセンス: Link先を確認
Dimitrios Kollias(参考訳) 本稿では,欧州コンピュータビジョン会議(eccv)と共同で開催した第4回産業内行動分析(abaw)コンペティションについて述べる。 第4回ABAWコンペティションはIEEE CVPR 2022、ICCV 2021、IEEE FG 2020、IEEE CVPR 2017 Conferencesで開催されるコンペティションの継続であり、自動的に影響を分析することを目的としている。 このコンペティションの以前の実行では、チャレンジはValence-Arousal Estimation、Expression Classification、Action Unit Detectionをターゲットにしていた。 今年大会は2つの異なる課題を含む。 一 上記三つのタスクのすべてを同時に学習すること(即ち、マルチタスク学習設定において。)を目標とするマルチタスク学習 二 人工的に生成されたデータから基本表現を認識し、実データに一般化することを目的とする合成データからの学習 Aff-Wild2データベースはWild内の大規模データベースであり、valenceやarousal、式、アクションユニットのアノテーションを含む最初のデータベースである。 このデータベースは、上記の課題の基盤である。 詳細は以下の通り。 i) Aff-Wild2データベースの静的バージョンであるs-Aff-Wild2がMulti-Task-Learning Challengeのために構築され、利用されている。 二 Aff-Wild2データベースから得られた特定のフレーム画像は、合成データセットを作成するための表現操作方法として使われており、これが合成データチャレンジからの学習の基礎となっている。 本稿では,まず,活用コーパスとともに2つの課題を提示し,その評価指標を概説し,最終的に課題ごとのベースラインシステムとそれらの成果を提示する。 コンペティションに関する詳細な情報は、コンペティションのwebサイトにある。 https://ibug.doc.ic.ac.uk/resources/eccv-2023-4th-abaw/。

This paper describes the fourth Affective Behavior Analysis in-the-wild (ABAW) Competition, held in conjunction with European Conference on Computer Vision (ECCV), 2022. The 4th ABAW Competition is a continuation of the Competitions held at IEEE CVPR 2022, ICCV 2021, IEEE FG 2020 and IEEE CVPR 2017 Conferences, and aims at automatically analyzing affect. In the previous runs of this Competition, the Challenges targeted Valence-Arousal Estimation, Expression Classification and Action Unit Detection. This year the Competition encompasses two different Challenges: i) a Multi-Task-Learning one in which the goal is to learn at the same time (i.e., in a multi-task learning setting) all the three above mentioned tasks; and ii) a Learning from Synthetic Data one in which the goal is to learn to recognise the basic expressions from artificially generated data and generalise to real data. The Aff-Wild2 database is a large scale in-the-wild database and the first one that contains annotations for valence and arousal, expressions and action units. This database is the basis for the above Challenges. In more detail: i) s-Aff-Wild2 -- a static version of Aff-Wild2 database -- has been constructed and utilized for the purposes of the Multi-Task-Learning Challenge; and ii) some specific frames-images from the Aff-Wild2 database have been used in an expression manipulation manner for creating the synthetic dataset, which is the basis for the Learning from Synthetic Data Challenge. In this paper, at first we present the two Challenges, along with the utilized corpora, then we outline the evaluation metrics and finally present the baseline systems per Challenge, as well as their derived results. More information regarding the Competition can be found in the competition's website: https://ibug.doc.ic.ac.uk/resources/eccv-2023-4th-abaw/.
翻訳日:2022-07-05 15:23:07 公開日:2022-07-03
# 適切な繰り返し単語による繰り返し生成

Generating Repetitions with Appropriate Repeated Words ( http://arxiv.org/abs/2207.00929v1 )

ライセンス: Link先を確認
Toshiki Kawamoto, Hidetaka Kamigaito, Kotaro Funakoshi, Manabu Okumura(参考訳) 繰り返し(repetition)とは、前の話者の発話を対話で繰り返す応答である。 反復は、言語研究で研究されているように、他人との信頼を構築するためのコミュニケーションに不可欠である。 本研究では反復生成に焦点をあてる。 私たちの知る限りでは、これは反復生成に対処する最初のニューラルアプローチです。 重み付きラベル平滑化法,微調整時にどの単語を繰り返すかを明示的に学習する平滑化法,復号時により適切な繰り返しを出力できる繰り返しスコアリング法を提案する。 我々は,これらの手法を訓練済み言語モデルT5に適用して,反復生成のための自動的,人為的評価を行った。 実験の結果,本手法は両評価でベースラインを上回っていた。

A repetition is a response that repeats words in the previous speaker's utterance in a dialogue. Repetitions are essential in communication to build trust with others, as investigated in linguistic studies. In this work, we focus on repetition generation. To the best of our knowledge, this is the first neural approach to address repetition generation. We propose Weighted Label Smoothing, a smoothing method for explicitly learning which words to repeat during fine-tuning, and a repetition scoring method that can output more appropriate repetitions during decoding. We conducted automatic and human evaluations involving applying these methods to the pre-trained language model T5 for generating repetitions. The experimental results indicate that our methods outperformed baselines in both evaluations.
翻訳日:2022-07-05 14:46:45 公開日:2022-07-03
# 長期文書要約に関する実証的研究:データセット、モデル、メトリクス

An Empirical Survey on Long Document Summarization: Datasets, Models and Metrics ( http://arxiv.org/abs/2207.00939v1 )

ライセンス: Link先を確認
Huan Yee Koh, Jiaxin Ju, Ming Liu, Shirui Pan(参考訳) 学術論文やビジネスレポートのような長い文書は、重要な問題や余分な注意を要する複雑な主題を詳述する標準形式となっている。 長い文書を短く簡潔なテキストに効果的に要約し、最も重要な情報をカプセル化する自動要約システムは、読者の理解を助ける上で重要である。 近年,ニューラルアーキテクチャの出現に伴い,自動テキスト要約システムの実現に向けた重要な研究が試みられ,これらのシステムを長い文書領域に拡張する上での課題について多くの研究がなされている。 本稿では,長期文書要約に関する研究の概要と,その研究設定の3つの主要コンポーネント(ベンチマークデータセット,要約モデル,評価指標)における体系的評価について概観する。 各構成要素について,長い文書要約の文脈で文献を整理し,経験的分析を行い,現在の研究の進展に関する展望を広げる。 実験分析は,ベンチマークデータセットの内在特性,要約モデルの多次元解析,要約評価指標のレビューを含む。 本研究は, この急速に成長する分野において, 今後の探査への道筋を示唆するものである。

Long documents such as academic articles and business reports have been the standard format to detail out important issues and complicated subjects that require extra attention. An automatic summarization system that can effectively condense long documents into short and concise texts to encapsulate the most important information would thus be significant in aiding the reader's comprehension. Recently, with the advent of neural architectures, significant research efforts have been made to advance automatic text summarization systems, and numerous studies on the challenges of extending these systems to the long document domain have emerged. In this survey, we provide a comprehensive overview of the research on long document summarization and a systematic evaluation across the three principal components of its research setting: benchmark datasets, summarization models, and evaluation metrics. For each component, we organize the literature within the context of long document summarization and conduct an empirical analysis to broaden the perspective on current research progress. The empirical analysis includes a study on the intrinsic characteristics of benchmark datasets, a multi-dimensional analysis of summarization models, and a review of the summarization evaluation metrics. Based on the overall findings, we conclude by proposing possible directions for future exploration in this rapidly growing field.
翻訳日:2022-07-05 14:46:32 公開日:2022-07-03
# 多言語多言語・多言語議会音声分析

Multi-aspect Multilingual and Cross-lingual Parliamentary Speech Analysis ( http://arxiv.org/abs/2207.01054v1 )

ライセンス: Link先を確認
Kristian Miok, Encarnacion Hidalgo-Tenorio, Petya Osenova, Miguel-Angel Benitez-Castro and Marko Robnik-Sikonja(参考訳) 議会と立法の議論の写しは、選出された政治家の意見、地位、および政策の好みに関するエキサイティングな洞察を与える。 政治・社会科学だけでなく、言語学や自然言語処理(nlp)にも興味がある。 離脱研究は個々の議会の議論を扱っている。 対照的に、我々は2017年から2020年にかけて、6つの国民議会(ブルガリア、チェコ、フランス、スロベニア、スペイン、イギリス)の合同および比較分析に高度なNLP手法を適用し、その写本はParlaMintデータセットコレクションの一部である。 統一的な方法論を用いて,議論される話題,感情,感情を分析する。 我々は,話者の年齢,性別,政治的指向が発話から検出できるかどうかを評価する。 その結果,分析国間での共通点や驚くべき相違点が認められた。

Parliamentary and legislative debate transcripts provide an exciting insight into elected politicians' opinions, positions, and policy preferences. They are interesting for political and social sciences as well as linguistics and natural language processing (NLP). Exiting research covers discussions within individual parliaments. In contrast, we apply advanced NLP methods to a joint and comparative analysis of six national parliaments (Bulgarian, Czech, French, Slovene, Spanish, and United Kingdom) between 2017 and 2020, whose transcripts are a part of the ParlaMint dataset collection. Using a uniform methodology, we analyze topics discussed, emotions, and sentiment. We assess if the age, gender, and political orientation of speakers can be detected from speeches. The results show some commonalities and many surprising differences among the analyzed countries.
翻訳日:2022-07-05 14:46:12 公開日:2022-07-03
# 時間的超解法ネットワークによる連続手話認識

Continuous Sign Language Recognition via Temporal Super-Resolution Network ( http://arxiv.org/abs/2207.00928v1 )

ライセンス: Link先を確認
Qidan Zhu, Jing Li, Fei Yuan, Quan Gan(参考訳) 深層学習に基づく空間的時間的階層的連続手話認識モデルが大量の計算量を持ち,そのモデルのリアルタイム適用を制限している問題に着目し,時間的超解像ネットワーク(TSRNet)を提案する。 データは密集した特徴列に再構成され、最終的な認識精度の損失を最小限に抑えながら、モデル全体の計算量を削減する。 TSRNetによる連続手話認識モデル(CSLR)は主にフレームレベル特徴抽出、時系列特徴抽出、TSRNetという3つの部分から構成され、TSRNetはフレームレベル特徴抽出と時系列特徴抽出の中間に位置する。 再構成されたフレームレベル特徴列として、2つの設計枝から得られた特徴を通して疎フレームレベル特徴を融合させ、時系列特徴抽出部後の訓練および最適化のために接続主義時相分類(ctc)損失を用いる。 セマンティックレベルの情報をよりよく回復するために,本論文で提案した自己生成型逆行訓練法を用いて,モデル誤り率の低減を図った。 訓練方法は、tsrnetを生成器とし、フレームレベル処理部と時間処理部とを判別器とする。 さらに、異なるベンチマークでモデル精度損失の評価基準を統一するために、推定単語誤り率(WER)と、再構成されたフレームレベルの特徴系列と、WERDとして完全なフレームレベルの特徴系列によって得られた参照WERとの間の誤差率を求める単語誤り率偏差(WERD)を提案する。 2つの大規模手話データセットにおける実験により,提案モデルの有効性が示された。

Aiming at the problem that the spatial-temporal hierarchical continuous sign language recognition model based on deep learning has a large amount of computation, which limits the real-time application of the model, this paper proposes a temporal super-resolution network(TSRNet). The data is reconstructed into a dense feature sequence to reduce the overall model computation while keeping the final recognition accuracy loss to a minimum. The continuous sign language recognition model(CSLR) via TSRNet mainly consists of three parts: frame-level feature extraction, time series feature extraction and TSRNet, where TSRNet is located between frame-level feature extraction and time-series feature extraction, which mainly includes two branches: detail descriptor and rough descriptor. The sparse frame-level features are fused through the features obtained by the two designed branches as the reconstructed dense frame-level feature sequence, and the connectionist temporal classification(CTC) loss is used for training and optimization after the time-series feature extraction part. To better recover semantic-level information, the overall model is trained with the self-generating adversarial training method proposed in this paper to reduce the model error rate. The training method regards the TSRNet as the generator, and the frame-level processing part and the temporal processing part as the discriminator. In addition, in order to unify the evaluation criteria of model accuracy loss under different benchmarks, this paper proposes word error rate deviation(WERD), which takes the error rate between the estimated word error rate (WER) and the reference WER obtained by the reconstructed frame-level feature sequence and the complete original frame-level feature sequence as the WERD. Experiments on two large-scale sign language datasets demonstrate the effectiveness of the proposed model.
翻訳日:2022-07-05 14:36:16 公開日:2022-07-03
# 顕微鏡画像における Trichomonas Vaginalis Segmentation

Trichomonas Vaginalis Segmentation in Microscope Images ( http://arxiv.org/abs/2207.00973v1 )

ライセンス: Link先を確認
Lin Li, Jingyi Liu, Shuo Wang, Xunkun Wang, Tian-Zhu Xiang(参考訳) トリコモニア症(英: Trichomoniasis)は、寄生虫Trichomonas vaginalisによって引き起こされる高頻度の感染症であり、未治療でヒトにHIVを発症するリスクを増大させる。 顕微鏡画像からのtrichomonas vaginalisの自動検出は、trichomoniasisの診断に不可欠な情報を提供する。 しかし、正確なTrichomonas vaginalis segmentation(TVS)は、Trichomonasと他の細胞(例えば白血球)の外観の類似性の高さ、その運動性に起因する大きな外観の変化、そして最も重要なことに、深層モデルトレーニングのための大規模な注釈データがないため、難しい課題である。 これらの課題に対処するため,我々は,tvmi3kと呼ばれるtrichomonas vaginalisの最初の大規模顕微鏡画像データセットを精巧に収集した。 さらに,高分解能核融合や前景アテンションモジュールを含む顕微鏡画像から自動的にトリコモナを分離する,TVNetと呼ばれるシンプルなベースラインを提案する。 広範な実験により,本モデルはセグメンテーション性能に優れ,定量的および定性的に様々な最先端物体検出モデルを上回ることを証明し,今後のtvs課題研究の推進に有望な枠組みとなる。 データセットと結果は、https://github.com/CellRecog/cellRecog.comで公開される。

Trichomoniasis is a common infectious disease with high incidence caused by the parasite Trichomonas vaginalis, increasing the risk of getting HIV in humans if left untreated. Automated detection of Trichomonas vaginalis from microscopic images can provide vital information for the diagnosis of trichomoniasis. However, accurate Trichomonas vaginalis segmentation (TVS) is a challenging task due to the high appearance similarity between the Trichomonas and other cells (e.g., leukocyte), the large appearance variation caused by their motility, and, most importantly, the lack of large-scale annotated data for deep model training. To address these challenges, we elaborately collected the first large-scale Microscopic Image dataset of Trichomonas Vaginalis, named TVMI3K, which consists of 3,158 images covering Trichomonas of various appearances in diverse backgrounds, with high-quality annotations including object-level mask labels, object boundaries, and challenging attributes. Besides, we propose a simple yet effective baseline, termed TVNet, to automatically segment Trichomonas from microscopic images, including high-resolution fusion and foreground-background attention modules. Extensive experiments demonstrate that our model achieves superior segmentation performance and outperforms various cutting-edge object detection models both quantitatively and qualitatively, making it a promising framework to promote future research in TVS tasks. The dataset and results will be publicly available at: https://github.com/CellRecog/cellRecog.
翻訳日:2022-07-05 14:35:42 公開日:2022-07-03
# NARRATE: 通常のフリービュー・ポートレート・スティライザ

NARRATE: A Normal Assisted Free-View Portrait Stylizer ( http://arxiv.org/abs/2207.00974v1 )

ライセンス: Link先を確認
Youjia Wang, Teng Xu, Yiwen Wu, Minzhang Li, Wenzheng Chen, Lan Xu, Jingyi Yu(参考訳) 本研究では,絵画の光と視界を同時に光写実的に編集できる新しいパイプラインNARRATEを提案する。 ハイブリッドニューラル・フィジカルな顔モデルとして、ナレートは幾何学的認識による生成的アプローチと正規支援の物理的顔モデルの相補的な利点を活用している。 ナレーションは、まず入力されたポートレートを粗い幾何学に反転させ、ニューラルネットワークを用いて入力に似たイメージを生成し、説得力のあるポーズ変化を生成する。 しかし、inversion stepはミスマッチを導入し、顔の詳細が少ない低品質の画像をもたらす。 そこで我々はさらに、粗い形状を強化するために通常の肖像画を推定し、高忠実度物理顔モデルを作成する。 特に、不完全な逆転を補うために、ニューラルネットワークと物理レンダリングを融合させ、現実的かつビューに一貫性のある新しい視点画像を生み出す。 ライティングの段階では、以前の作品は単一ビューのポートレートリライティングに焦点を当てていたが、異なる視点間の一貫性を無視し、ビュー変更に対する不安定で一貫性のない照明効果を導いた。 物理面モデルとマルチビュー入力正規写像を統一することにより、トータルリライティングを拡張してこの問題を解消する。 ナレートは一貫した正規写像で照明を行い、クロスビューの制約を課し、安定かつコヒーレントな照明効果を示す。 我々は、ナレートが以前の作品よりもよりフォトリアリスティックで信頼性の高い結果が得られることを実験的に実証する。 さらに,アニメーションとスタイルトランスファーツール,ポーズ変化,光変化,顔アニメーション,スタイルトランスファーをサポートしたナレートを,写真品質で別々に,あるいは組み合わせて橋渡しする。 バーチャルシネマトグラフィーや3Dビデオ会議、ポストプロダクションなど、さまざまなAR/VRアプリケーションを支援するために、鮮やかなフリービューの顔アニメーションと、3D対応のスタイリングを紹介します。

In this work, we propose NARRATE, a novel pipeline that enables simultaneously editing portrait lighting and perspective in a photorealistic manner. As a hybrid neural-physical face model, NARRATE leverages complementary benefits of geometry-aware generative approaches and normal-assisted physical face models. In a nutshell, NARRATE first inverts the input portrait to a coarse geometry and employs neural rendering to generate images resembling the input, as well as producing convincing pose changes. However, inversion step introduces mismatch, bringing low-quality images with less facial details. As such, we further estimate portrait normal to enhance the coarse geometry, creating a high-fidelity physical face model. In particular, we fuse the neural and physical renderings to compensate for the imperfect inversion, resulting in both realistic and view-consistent novel perspective images. In relighting stage, previous works focus on single view portrait relighting but ignoring consistency between different perspectives as well, leading unstable and inconsistent lighting effects for view changes. We extend Total Relighting to fix this problem by unifying its multi-view input normal maps with the physical face model. NARRATE conducts relighting with consistent normal maps, imposing cross-view constraints and exhibiting stable and coherent illumination effects. We experimentally demonstrate that NARRATE achieves more photorealistic, reliable results over prior works. We further bridge NARRATE with animation and style transfer tools, supporting pose change, light change, facial animation, and style transfer, either separately or in combination, all at a photographic quality. We showcase vivid free-view facial animations as well as 3D-aware relightable stylization, which help facilitate various AR/VR applications like virtual cinematography, 3D video conferencing, and post-production.
翻訳日:2022-07-05 14:35:13 公開日:2022-07-03
# オブジェクト検出における動的ボックス融合戦略

Dynamic boxes fusion strategy in object detection ( http://arxiv.org/abs/2207.00997v1 )

ライセンス: Link先を確認
Zhijiang Wan and Shichang Liu and Manyu Li(参考訳) 微視的なシナリオでのオブジェクト検出は一般的なタスクです。 顕微鏡は常に可変倍率を持つため、物体はスケールが大きく変化し、検出器の最適化を負担する。 さらに、カメラフォーカスの異なる状況はぼやけた画像をもたらすため、オブジェクトと背景の境界を区別することが大きな課題となる。 To solve the two issues mentioned above, we provide bags of useful training strategies and extensive experiments on Chula-ParasiteEgg-11 dataset, bring non-negligible results on ICIP 2022 Challenge: Parasitic Egg Detection and Classification in Microscopic Images, further more, we propose a new box selection strategy and an improved boxes fusion method for multi-model ensemble, as a result our method wins 1st place(mIoU 95.28%, mF1Score 99.62%), which is also the state-of-the-art method on Chula-ParasiteEgg-11 dataset.

Object detection on microscopic scenarios is a popular task. As microscopes always have variable magnifications, the object can vary substantially in scale, which burdens the optimization of detectors. Moreover, different situations of camera focusing bring in the blurry images, which leads to great challenge of distinguishing the boundaries between objects and background. To solve the two issues mentioned above, we provide bags of useful training strategies and extensive experiments on Chula-ParasiteEgg-11 dataset, bring non-negligible results on ICIP 2022 Challenge: Parasitic Egg Detection and Classification in Microscopic Images, further more, we propose a new box selection strategy and an improved boxes fusion method for multi-model ensemble, as a result our method wins 1st place(mIoU 95.28%, mF1Score 99.62%), which is also the state-of-the-art method on Chula-ParasiteEgg-11 dataset.
翻訳日:2022-07-05 14:34:39 公開日:2022-07-03
# テストベンチマークと運用データ間のコンテキストシフトの特定

Identifying the Context Shift between Test Benchmarks and Production Data ( http://arxiv.org/abs/2207.01059v1 )

ライセンス: Link先を確認
Matthew Groh(参考訳) さまざまなドメインにまたがって、データセットベンチマークにおける機械学習モデルの精度と実世界の生産データとの間には、パフォーマンスギャップがある。 実世界を表す静的データセットベンチマークは慎重に設計されているが、モデルがトレーニングしたデータに対してデータが分散していない場合、モデルはしばしばerrになる。 分布シフトのいくつかの側面を直接測定・調整することはできるが,データ生成プロセスを知ることなく,サンプル選択バイアス,対角摂動,非定常性に対処することはできない。 本稿では、人間の直感と専門家の知識を活用して1次文脈を識別し、デシダータに基づく動的ベンチマークをデータ生成プロセスで開発する。 さらに、テストベンチマークデータセットを超えて一般化しようとする場合、エラーにつながる傾向にある応用機械学習モデルに基づく暗黙の仮定を強調する2つのケーススタディを示す。 各予測タスクにおけるコンテキストの役割に注意を払うことで、研究者はコンテキストシフトエラーを減らし、一般化性能を向上させることができる。

Across a wide variety of domains, there exists a performance gap between machine learning models' accuracy on dataset benchmarks and real-world production data. Despite the careful design of static dataset benchmarks to represent the real-world, models often err when the data is out-of-distribution relative to the data the models have been trained on. We can directly measure and adjust for some aspects of distribution shift, but we cannot address sample selection bias, adversarial perturbations, and non-stationarity without knowing the data generation process. In this paper, we outline two methods for identifying changes in context that lead to distribution shifts and model prediction errors: leveraging human intuition and expert knowledge to identify first-order contexts and developing dynamic benchmarks based on desiderata for the data generation process. Furthermore, we present two case-studies to highlight the implicit assumptions underlying applied machine learning models that tend to lead to errors when attempting to generalize beyond test benchmark datasets. By paying close attention to the role of context in each prediction task, researchers can reduce context shift errors and increase generalization performance.
翻訳日:2022-07-05 14:02:50 公開日:2022-07-03
# 勾配降下上昇の収束について--強固な局所解析

On Convergence of Gradient Descent Ascent: A Tight Local Analysis ( http://arxiv.org/abs/2207.00957v1 )

ライセンス: Link先を確認
Haochuan Li, Farzan Farnia, Subhro Das, Ali Jadbabaie(参考訳) GDA(Gradient Descent Ascent)法は、GAN(Generative Adversarial Network)における最小最適化のアルゴリズムである。 GDAの収束特性は近年の文献に多大な関心を寄せている。 具体的には、$\min_{\mathbf{x}} \max_{\mathbf{y}} f(\mathbf{x};\mathbf{y})$ ここで$f$は$\mathbf{y}$で強凹であり、おそらく非凸で$\mathbf{x}$, (lin et al., 2020) は、$\eta_{\mathbf{y}}/\eta_{\mathbf{x}}=\theta(\kappa^2)$ ここで$\eta_{\mathbf{x}}$と$\eta_{\mathbf{y}}$は$\mathbf{x}$と$\mathbf{y}$のステイズであり、$\kappa$は$\mathbf{x}$と$\mathbf{y}$のステイズである。 このステップ化比はminプレイヤーの遅いトレーニングを示唆するが、実用的なganアルゴリズムは通常、両方の変数に対して同様のステップ化を採用する。 本稿では、このギャップを、一般のemph{nonconvex-nonconcave}ミニマックス問題のemph{local convergence}を解析することで橋渡しすることを目的とする。 我々は、gda のスタックルベルク平衡への局所収束には、ステップ化比 $\theta(\kappa)$ が必要で十分であることを示し、ここで$\kappa$ は$\mathbf{y}$ の局所条件数である。 我々は、ほぼタイトな収束率を、一致する下界で証明する。 我々はさらに収束保証を確率的GDAとextra-gradient method(EG)に拡張する。 最後に, 理論的知見を裏付ける数値実験を複数実施する。

Gradient Descent Ascent (GDA) methods are the mainstream algorithms for minimax optimization in generative adversarial networks (GANs). Convergence properties of GDA have drawn significant interest in the recent literature. Specifically, for $\min_{\mathbf{x}} \max_{\mathbf{y}} f(\mathbf{x};\mathbf{y})$ where $f$ is strongly-concave in $\mathbf{y}$ and possibly nonconvex in $\mathbf{x}$, (Lin et al., 2020) proved the convergence of GDA with a stepsize ratio $\eta_{\mathbf{y}}/\eta_{\mathbf{x}}=\Theta(\kappa^2)$ where $\eta_{\mathbf{x}}$ and $\eta_{\mathbf{y}}$ are the stepsizes for $\mathbf{x}$ and $\mathbf{y}$ and $\kappa$ is the condition number for $\mathbf{y}$. While this stepsize ratio suggests a slow training of the min player, practical GAN algorithms typically adopt similar stepsizes for both variables, indicating a wide gap between theoretical and empirical results. In this paper, we aim to bridge this gap by analyzing the \emph{local convergence} of general \emph{nonconvex-nonconcave} minimax problems. We demonstrate that a stepsize ratio of $\Theta(\kappa)$ is necessary and sufficient for local convergence of GDA to a Stackelberg Equilibrium, where $\kappa$ is the local condition number for $\mathbf{y}$. We prove a nearly tight convergence rate with a matching lower bound. We further extend the convergence guarantees to stochastic GDA and extra-gradient methods (EG). Finally, we conduct several numerical experiments to support our theoretical findings.
翻訳日:2022-07-05 14:02:06 公開日:2022-07-03
# WaferSegClassNet - 半導体ウエハ欠陥の分類とセグメンテーションのための軽量ネットワーク

WaferSegClassNet -- A Light-weight Network for Classification and Segmentation of Semiconductor Wafer Defects ( http://arxiv.org/abs/2207.00960v1 )

ライセンス: Link先を確認
Subhrajit Nag, Dhruv Makwana, Sai Chandra Teja R, Sparsh Mittal, C Krishna Mohan(参考訳) 半導体ウエハの積分密度と設計精度が増大するにつれて、欠陥の大きさや複雑さも増大しつつある。 ウエハ欠陥の手動検査はコストがかかるため、自動化人工知能(AI)ベースのコンピュータビジョンアプローチが望まれている。 欠陥解析に関するこれまでの研究には、低い精度と分類と分割のための別々のモデルの必要性など、いくつかの制限がある。 混合型欠陥を分析するには、以前のいくつかの研究では、各欠陥タイプのモデルを個別にトレーニングする必要がある。 本稿では,エンコーダ-デコーダアーキテクチャに基づく新しいネットワークであるWaferSegClassNet(WSCN)を提案する。 WSCNは単一および混合型ウェハ欠陥の同時分類とセグメンテーションを行う。 WSCNは分類とセグメンテーションに"Shared Encoder"を使用し、WSCNのエンドツーエンドのトレーニングを可能にする。 まず, エンコーダの事前訓練を行い, セグメンテーションにBCE-Dice損失, 分類にカテゴリ的クロスエントロピー損失を用いる。 N対の対照的な損失の利用は、ウェハ写像の潜在次元におけるより良い埋め込み表現に役立つ。 WSCN のモデルサイズは 0.51MB しかなく、0.2M FLOPS しか動作しない。 したがって、他の最先端モデルよりもはるかに軽量である。 また、コンバージェンスには150エポックしか必要とせず、前回の作業で4,000エポックが必要であった。 我々は,38,015枚の画像を持つMixedWM38データセットを用いて,そのモデルを評価する。 WSCNの平均分類精度は98.2%、サイス係数は0.9999である。 MixedWM38データセットでセグメンテーション結果を示すのはこれが初めてです。 ソースコードはhttps://github.com/ckmvigil/WaferSegClassNetから取得できる。

As the integration density and design intricacy of semiconductor wafers increase, the magnitude and complexity of defects in them are also on the rise. Since the manual inspection of wafer defects is costly, an automated artificial intelligence (AI) based computer-vision approach is highly desired. The previous works on defect analysis have several limitations, such as low accuracy and the need for separate models for classification and segmentation. For analyzing mixed-type defects, some previous works require separately training one model for each defect type, which is non-scalable. In this paper, we present WaferSegClassNet (WSCN), a novel network based on encoder-decoder architecture. WSCN performs simultaneous classification and segmentation of both single and mixed-type wafer defects. WSCN uses a "shared encoder" for classification, and segmentation, which allows training WSCN end-to-end. We use N-pair contrastive loss to first pretrain the encoder and then use BCE-Dice loss for segmentation, and categorical cross-entropy loss for classification. Use of N-pair contrastive loss helps in better embedding representation in the latent dimension of wafer maps. WSCN has a model size of only 0.51MB and performs only 0.2M FLOPS. Thus, it is much lighter than other state-of-the-art models. Also, it requires only 150 epochs for convergence, compared to 4,000 epochs needed by a previous work. We evaluate our model on the MixedWM38 dataset, which has 38,015 images. WSCN achieves an average classification accuracy of 98.2% and a dice coefficient of 0.9999. We are the first to show segmentation results on the MixedWM38 dataset. The source code can be obtained from https://github.com/ckmvigil/WaferSegClassNet.
翻訳日:2022-07-05 13:58:57 公開日:2022-07-03
# 解釈可能なフィードフォワードニューラルネットワークを用いた画像系列分類による固体表面のスプラッシュ・ドロップと時間進化の特徴

Features of a Splashing Drop on a Solid Surface and the Temporal Evolution extracted through Image-Sequence Classification using an Interpretable Feedforward Neural Network ( http://arxiv.org/abs/2207.00971v1 )

ライセンス: Link先を確認
Jingzu Yee, Daichi Igarashi, Akinori Yamanaka, Yoshiyuki Tagawa(参考訳) 本稿では,高解釈可能なフィードフォワードニューラルネットワーク(FNN)を用いた画像系列分類によって抽出した,固体表面上の発散滴と時間的進化の特徴を報告する。 FNNのトレーニングバリデーションと試験に使用される画像シーケンスは、親水性ガラス基板に衝突するミリサイズのエタノール滴の早期変形を、ウェバー数31-474の範囲で示している(スラッシュ閾値は約173)。 特定のビデオ撮影条件とデジタル画像処理を行い、画像シーケンス間の高い類似性を保証する。 その結果、訓練されたFNNは96%以上の精度でテストを行った。 特徴抽出により, 空力的に揚水されたラメラの周囲に放出される二次液滴の時間的変化と, 本体の比較的高い輪郭を散水滴の特徴として同定し, 相対的に短くて厚いラメラを非散水滴の特徴として同定した。 これらの特徴の物理的解釈とその時間的進化は, 発散滴と非発散滴の間の本体の輪郭高さの違いを除いて同定されている。 本研究で報告された観察は, 固体表面への衝突時の発散滴の変形をモデル化するためのデータ駆動シミュレーションの開発に重要である。

This paper reports the features of a splashing drop on a solid surface and the temporal evolution, which are extracted through image-sequence classification using a highly interpretable feedforward neural network (FNN) with zero hidden layer. The image sequences used for training-validation and testing of the FNN show the early-stage deformation of milli-sized ethanol drops that impact a hydrophilic glass substrate with the Weber number ranges between 31-474 (splashing threshold about 173). Specific videographing conditions and digital image processing are performed to ensure the high similarity among the image sequences. As a result, the trained FNNs achieved a test accuracy higher than 96%. Remarkably, the feature extraction shows that the trained FNN identifies the temporal evolution of the ejected secondary droplets around the aerodynamically lifted lamella and the relatively high contour of the main body as the features of a splashing drop, while the relatively short and thick lamella as the feature of a nonsplashing drop. The physical interpretation for these features and their respective temporal evolution have been identified except for the difference in contour height of the main body between splashing and nonsplashing drops. The observation reported in this study is important for the development of a data-driven simulation for modeling the deformation of a splashing drop during the impact on a solid surface.
翻訳日:2022-07-05 13:58:35 公開日:2022-07-03
# 収縮性呼吸器疾患の患者別モデル、シミュレーションおよびリアルタイム処理

Patient-specific modelling, simulation and real time processing for constrictive respiratory diseases ( http://arxiv.org/abs/2207.01082v1 )

ライセンス: Link先を確認
Stavros Nousias(参考訳) 喘息は呼吸系の一般的な慢性疾患であり、大きな障害と社会的負担を引き起こす。 世界の人口は5億人を超え、2011年の米国における費用は5600億ドルを超えている。 喘息の管理には、症状のコントロール、悪化の防止、肺機能の維持が含まれる。 喘息コントロールの改善は患者の日常生活に影響を与え、増悪や肺機能障害のリスクが減少し、喘息治療のコストと生産性の低下に伴う間接的なコストが削減される。 気管支喘息治療の進展には, 肺系の複雑な動態と, 疾患, 外傷, 治療に対する肺の反応の理解が不可欠である。 呼吸系の計算モデルは、構造と機能の間の相互作用を理解するための理論的枠組みを提供する。 患者固有の方法により、患者固有のアプローチで、薬物のデリバリーを最大化する患者固有の技術を導入しながら、パーソナライズされた幾何学的およびパーソナライズされた換気パターンからデリバリーを最適化することができる。 この論文の3倍の目的がこの時点で顕著になる。 第1部は、肺の病態の理解と喘息のメカニズム、およびそれに続く収縮性肺疾患全般を指す。 第2部では、デリバリーと効率を改善するためにパーソナライズされた医療を促進するツールの設計と実装について述べる。 最後に、第3部は、状態の自己管理のことであり、医療従事者や患者は、第1部が状態の経過を容易に追跡できるツールや方法、第2部、すなわち、患者が健康システムから重大な負担を軽減して、状態の自己管理を容易に行えるようにする。

Asthma is a common chronic disease of the respiratory system causing significant disability and societal burden. It affects over 500 million people worldwide and generates costs exceeding $USD 56 billion in 2011 in the United States. Managing asthma involves controlling symptoms, preventing exacerbations, and maintaining lung function. Improving asthma control affects the daily life of patients and is associated with a reduced risk of exacerbations and lung function impairment, reduces the cost of asthma care and indirect costs associated with reduced productivity. Understanding the complex dynamics of the pulmonary system and the lung's response to disease, injury, and treatment is fundamental to the advancement of Asthma treatment. Computational models of the respiratory system seek to provide a theoretical framework to understand the interaction between structure and function. Their application can improve pulmonary medicine by a patient-specific approach to medicinal methodologies optimizing the delivery given the personalized geometry and personalized ventilation patterns while introducing a patient-specific technique that maximizes drug delivery. A three-fold objective addressed within this dissertation becomes prominent at this point. The first part refers to the comprehension of pulmonary pathophysiology and the mechanics of Asthma and subsequently of constrictive pulmonary conditions in general. The second part refers to the design and implementation of tools that facilitate personalized medicine to improve delivery and effectiveness. Finally, the third part refers to the self-management of the condition, meaning that medical personnel and patients have access to tools and methods that allow the first party to easily track the course of the condition and the second party, i.e. the patient to easily self-manage it alleviating the significant burden from the health system.
翻訳日:2022-07-05 13:58:11 公開日:2022-07-03
# グラフベースベイズ半教師付き学習の数学的基礎

Mathematical Foundations of Graph-Based Bayesian Semi-Supervised Learning ( http://arxiv.org/abs/2207.01093v1 )

ライセンス: Link先を確認
Nicolas Garc\'ia Trillos, Daniel Sanz-Alonso, Ruiyi Yang(参考訳) 数十年間、科学とエンジニアリングは、利用可能なデータ量の増加によって革命を遂げてきた。 しかし、データが収集され保存されるという前代未聞の容易さにもかかわらず、各機能を情報タグで補うことでラベル付けするのは難しい。 ラベル付けプロセスが専門知識を必要としたり、退屈で時間のかかる作業には、診断を伴うx線標識、タンパク質型によるタンパク質配列、トピックによるテキスト、感情によるつぶやき、ジャンルによるビデオなどがある。 これらや他の多くの例では、コストと時間の制約のために手動でラベル付けされる機能はわずかである。 少数の高価なラベル付き機能から、膨大な数のラベル付き機能まで、ラベル情報をどのように伝達するか。 これは半教師付き学習(ssl)によって解決される問題である。 本稿では,特徴間の類似性を利用したラベル伝搬の確率的フレームワークであるBayesian SSLに関する最近の基礎開発について概説する。 SSLは活発な研究領域であり、現存する文献の徹底的なレビューはこの記事の範囲を超えている。 我々の焦点は、グラフベースのベイズSSLの統計的精度と計算効率に関する厳密な研究の基盤となる、幅広い数学的ツールとアイデアを示す、我々の研究から得られたトピックに焦点を当てる。

In recent decades, science and engineering have been revolutionized by a momentous growth in the amount of available data. However, despite the unprecedented ease with which data are now collected and stored, labeling data by supplementing each feature with an informative tag remains to be challenging. Illustrative tasks where the labeling process requires expert knowledge or is tedious and time-consuming include labeling X-rays with a diagnosis, protein sequences with a protein type, texts by their topic, tweets by their sentiment, or videos by their genre. In these and numerous other examples, only a few features may be manually labeled due to cost and time constraints. How can we best propagate label information from a small number of expensive labeled features to a vast number of unlabeled ones? This is the question addressed by semi-supervised learning (SSL). This article overviews recent foundational developments on graph-based Bayesian SSL, a probabilistic framework for label propagation using similarities between features. SSL is an active research area and a thorough review of the extant literature is beyond the scope of this article. Our focus will be on topics drawn from our own research that illustrate the wide range of mathematical tools and ideas that underlie the rigorous study of the statistical accuracy and computational efficiency of graph-based Bayesian SSL.
翻訳日:2022-07-05 13:54:41 公開日:2022-07-03
# 言語は深く理解できますか。

Can Language Understand Depth? ( http://arxiv.org/abs/2207.01077v1 )

ライセンス: Link先を確認
Renrui Zhang, Ziyao Zeng, Ziyu Guo(参考訳) 画像分類の他に、CLIP(Contrastive Language- Image Pre-Training)は、オブジェクトレベルや3D空間理解を含む幅広い視覚タスクにおいて、驚くべき成功を収めている。 しかし、CLIPから学んだセマンティック知識を、幾何情報による深さ推定など、定量化されたターゲットのより複雑なタスクに移行することは依然として困難である。 本稿では,DepthCLIPと呼ばれるゼロショット単眼深度推定にCLIPを適用することを提案する。 入力画像のパッチは、ある意味距離トークンに応答し、粗い推定のために定量化された深さビンに投影できることがわかった。 トレーニングなしでは、DepthCLIPは既存の教師なしの手法を超え、初期の完全教師付きネットワークにもアプローチします。 最善を尽くすために、我々はセマンティック言語知識からゼロショット適応を行い、下流タスクを定量化し、ゼロショット単眼深度推定を行う。 私たちの研究が将来の研究に光を当ててくれることを願っています。 コードはhttps://github.com/Adonis-galaxy/DepthCLIPで入手できる。

Besides image classification, Contrastive Language-Image Pre-training (CLIP) has accomplished extraordinary success for a wide range of vision tasks, including object-level and 3D space understanding. However, it's still challenging to transfer semantic knowledge learned from CLIP into more intricate tasks of quantified targets, such as depth estimation with geometric information. In this paper, we propose to apply CLIP for zero-shot monocular depth estimation, named DepthCLIP. We found that the patches of the input image could respond to a certain semantic distance token and then be projected to a quantified depth bin for coarse estimation. Without any training, our DepthCLIP surpasses existing unsupervised methods and even approaches the early fully-supervised networks. To our best knowledge, we are the first to conduct zero-shot adaptation from the semantic language knowledge to quantified downstream tasks and perform zero-shot monocular depth estimation. We hope our work could cast a light on future research. The code is available at https://github.com/Adonis-galaxy/DepthCLIP.
翻訳日:2022-07-05 13:33:36 公開日:2022-07-03
# SSD-Faster Net: 産業欠陥検査のためのハイブリッドネットワーク

SSD-Faster Net: A Hybrid Network for Industrial Defect Inspection ( http://arxiv.org/abs/2207.00589v1 )

ライセンス: Link先を確認
Jingyao Wang, Naigong Yu(参考訳) 産業部品の品質は、ロボットなどの特殊機器の製造に不可欠である。 これらのコンポーネントの欠陥検査は、品質を確保する効率的な方法です。 本稿では,鉄道,絶縁体,通勤機等の産業欠陥検査のためのハイブリッドネットワーク,SSD-Faster Netを提案する。 SSD-Faster Netは2段階のネットワークであり、欠陥ブロックを素早く配置するためのSSDと、欠陥セグメンテーションのためのより高速なR-CNNを含んでいる。 前者に対しては,SSDの高速スキャンを支援するスライスローカライズ機構を提案する。 第2段階は、より高速なr-cnn、fpn、deformable kernel(dk)を使用して表現能力を向上させることに基づいている。 マルチスケールな情報を融合し、受容野に自己適応する。 また、新しい損失関数を提案し、ROI Align を用いて精度を向上させる。 実験の結果、SSD-Faster Netの平均精度は84.03%で、これはより高速なR-CNNをベースとした競合機よりも13.42%高く、4.14%、DNNベースの検出器よりも10%高い。 そして、計算速度は7%近く改善され、堅牢性と優れたパフォーマンスが証明される。

The quality of industrial components is critical to the production of special equipment such as robots. Defect inspection of these components is an efficient way to ensure quality. In this paper, we propose a hybrid network, SSD-Faster Net, for industrial defect inspection of rails, insulators, commutators etc. SSD-Faster Net is a two-stage network, including SSD for quickly locating defective blocks, and an improved Faster R-CNN for defect segmentation. For the former, we propose a novel slice localization mechanism to help SSD scan quickly. The second stage is based on improved Faster R-CNN, using FPN, deformable kernel(DK) to enhance representation ability. It fuses multi-scale information, and self-adapts the receptive field. We also propose a novel loss function and use ROI Align to improve accuracy. Experiments show that our SSD-Faster Net achieves an average accuracy of 84.03%, which is 13.42% higher than the nearest competitor based on Faster R-CNN, 4.14% better than GAN-based methods, more than 10% higher than that of DNN-based detectors. And the computing speed is improved by nearly 7%, which proves its robustness and superior performance.
翻訳日:2022-07-05 13:33:17 公開日:2022-07-03
# decisionet --バイナリツリー構造化ニューラルネットワーク

DecisioNet -- A Binary-Tree Structured Neural Network ( http://arxiv.org/abs/2207.01127v1 )

ライセンス: Link先を確認
Noam Gottlieb and Michael Werman(参考訳) deep neural networks (dnn) と decision tree (dts) はどちらも最先端の分類器である。 DTは、入力データに依存する1つのルート(root-to-leaf)に沿って推論を行うので、計算効率が良い。 本稿では,二分木構成ニューラルネットワークであるdecisionet(dn)を提案する。 既存のdnnをdnに変換して軽量版のオリジナルモデルを作成する体系的な方法を提案する。 DecisioNetは、ニューラルネットワークを使って表現学習を行い、ツリー構造を利用して計算の一部だけを実行する。 我々は、FashionMNIST、CIFAR10、CIFAR100データセットのベースラインモデルとともに、様々なDNアーキテクチャを評価する。 DNの変種は、元のネットワークの計算コストを大幅に削減しつつ、同様の精度を実現する。

Deep neural networks (DNNs) and decision trees (DTs) are both state-of-the-art classifiers. DNNs perform well due to their representational learning capabilities, while DTs are computationally efficient as they perform inference along one route (root-to-leaf) that is dependent on the input data. In this paper, we present DecisioNet (DN), a binary-tree structured neural network. We propose a systematic way to convert an existing DNN into a DN to create a lightweight version of the original model. DecisioNet takes the best of both worlds - it uses neural modules to perform representational learning and utilizes its tree structure to perform only a portion of the computations. We evaluate various DN architectures, along with their corresponding baseline models on the FashionMNIST, CIFAR10, and CIFAR100 datasets. We show that the DN variants achieve similar accuracy while significantly reducing the computational cost of the original network.
翻訳日:2022-07-05 13:32:05 公開日:2022-07-03
# チャット・トゥ・デザイン:AIによるパーソナライズされたファッションデザイン

Chat-to-Design: AI Assisted Personalized Fashion Design ( http://arxiv.org/abs/2207.01058v1 )

ライセンス: Link先を確認
Weiming Zhuang, Chongjie Ye, Ying Xu, Pengzhi Mao, Shuai Zhang(参考訳) このデモでは、パーソナライズされたファッションデザインのための新しいマルチモーダルインタラクションシステムChat-to-Designを紹介する。 キーワードに基づくアパレルを推奨する古典的なシステムと比較して、Chat-to-Designでは、ユーザーは2つのステップで服をデザインできる。 1)会話による粗粒度選択 2)インタラクティブインタフェースによる細かな編集。 没入型ユーザエクスペリエンスを提供するための3つのサブシステムを含む: 自然言語理解によってユーザの要求を受け付け、ダイアログを管理するための会話システム、要求されたアパレルを検索するための大規模事前訓練された言語イメージネットワークによって権限付けられたマルチモーダルファッション検索システム、検索された服の属性を編集する新しい生成技術によって権限付けられたファッションデザインシステム。

In this demo, we present Chat-to-Design, a new multimodal interaction system for personalized fashion design. Compared to classic systems that recommend apparel based on keywords, Chat-to-Design enables users to design clothes in two steps: 1) coarse-grained selection via conversation and 2) fine-grained editing via an interactive interface. It encompasses three sub-systems to deliver an immersive user experience: A conversation system empowered by natural language understanding to accept users' requests and manages dialogs; A multimodal fashion retrieval system empowered by a large-scale pretrained language-image network to retrieve requested apparel; A fashion design system empowered by emerging generative techniques to edit attributes of retrieved clothes.
翻訳日:2022-07-05 13:29:01 公開日:2022-07-03
# M-Adapter: エンドツーエンド音声テキスト翻訳のためのモダリティ適応

M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation ( http://arxiv.org/abs/2207.00952v1 )

ライセンス: Link先を確認
Jinming Zhao, Hao Yang, Ehsan Shareghi, Gholamreza Haffari(参考訳) エンドツーエンドの音声テキスト変換モデルは、しばしば事前訓練された音声エンコーダと事前訓練されたテキストデコーダで初期化される。 これは、主にエンコーダからの音声出力とデコーダへのテキスト入力のモダリティの違いのため、事前トレーニングと微調整の間の大きなトレーニングギャップをもたらす。 本研究では,音声とテキストのモーダリティギャップを橋渡しし,翻訳品質を向上させることを目的とする。 テキストに音声表現を適応させる新しいトランスフォーマーベースのモジュールであるM-Adapterを提案する。 音声シーケンスを縮小しながら、M-Adapterは、音声シーケンスのグローバルおよびローカル依存関係をモデル化することで、音声からテキストへの変換に望ましい機能を生成する。 実験の結果,我々のモデルは,Must-C En$\rightarrow$DEデータセット上で,最大1 BLEUスコアで高いベースラインを達成できた。 コードはhttps://github.com/mingzi151/w2v2-stで入手できる。 }

End-to-end speech-to-text translation models are often initialized with pre-trained speech encoder and pre-trained text decoder. This leads to a significant training gap between pre-training and fine-tuning, largely due to the modality differences between speech outputs from the encoder and text inputs to the decoder. In this work, we aim to bridge the modality gap between speech and text to improve translation quality. We propose M-Adapter, a novel Transformer-based module, to adapt speech representations to text. While shrinking the speech sequence, M-Adapter produces features desired for speech-to-text translation via modelling global and local dependencies of a speech sequence. Our experimental results show that our model outperforms a strong baseline by up to 1 BLEU score on the Must-C En$\rightarrow$DE dataset.\footnote{Our code is available at https://github.com/mingzi151/w2v2-st.}
翻訳日:2022-07-05 13:27:07 公開日:2022-07-03
# グラフ同型に基づく性能予測器のアーキテクチャ拡張

Architecture Augmentation for Performance Predictor Based on Graph Isomorphism ( http://arxiv.org/abs/2207.00987v1 )

ライセンス: Link先を確認
Xiangning Xie, Yuqiao Liu, Yanan Sun, Mengjie Zhang, Kay Chen Tan(参考訳) neural architecture search (nas)はディープニューラルネットワーク(dnn)のアーキテクチャを自動的に設計することができ、現在の機械学習コミュニティで最もホットな研究トピックの1つとなっている。 しかし、NASは、多くのDNNを探索プロセス中に性能を得るために訓練する必要があるため、しばしば計算コストがかかる。 DNNの性能を直接予測することでNASの禁止コストを大幅に軽減することができる。 しかし、性能予測器の構築は、ほとんどのシナリオでは入手が困難である十分に訓練されたDNNアーキテクチャに大きく依存する。 本稿では,この課題を解決するために,GAAug と呼ばれる DNN アーキテクチャ拡張手法を提案する。 具体的には、まずグラフ同型に基づくメカニズムを提案し、これは$\boldsymbol n$ (つまり$\boldsymbol n! $)$\boldsymbol n$ノードを持つ単一のアーキテクチャ上のさまざまなアノテーション付きアーキテクチャ。 さらに,多くの予測モデルに適した形式に,アーキテクチャをエンコードする汎用的な手法も設計した。 その結果、GAAugは様々な性能予測器ベースのNASアルゴリズムによって柔軟に利用することができる。 我々は,CIFAR-10とImageNetベンチマークデータセットについて,中規模・大規模検索空間上で広範囲に実験を行った。 実験の結果、giaugは最先端のピア予測器の性能を大幅に向上できることがわかった。 さらに、GAAugはImageNet上で3桁の計算コストを節約できるが、最先端のNASアルゴリズムと比較すると、同様の性能を持つ。

Neural Architecture Search (NAS) can automatically design architectures for deep neural networks (DNNs) and has become one of the hottest research topics in the current machine learning community. However, NAS is often computationally expensive because a large number of DNNs require to be trained for obtaining performance during the search process. Performance predictors can greatly alleviate the prohibitive cost of NAS by directly predicting the performance of DNNs. However, building satisfactory performance predictors highly depends on enough trained DNN architectures, which are difficult to obtain in most scenarios. To solve this critical issue, we propose an effective DNN architecture augmentation method named GIAug in this paper. Specifically, we first propose a mechanism based on graph isomorphism, which has the merit of efficiently generating a factorial of $\boldsymbol n$ (i.e., $\boldsymbol n!$) diverse annotated architectures upon a single architecture having $\boldsymbol n$ nodes. In addition, we also design a generic method to encode the architectures into the form suitable to most prediction models. As a result, GIAug can be flexibly utilized by various existing performance predictors-based NAS algorithms. We perform extensive experiments on CIFAR-10 and ImageNet benchmark datasets on small-, medium- and large-scale search space. The experiments show that GIAug can significantly enhance the performance of most state-of-the-art peer predictors. In addition, GIAug can save three magnitude order of computation cost at most on ImageNet yet with similar performance when compared with state-of-the-art NAS algorithms.
翻訳日:2022-07-05 13:25:32 公開日:2022-07-03
# DailyTalk:会話テキスト対音声のための音声対話データセット

DailyTalk: Spoken Dialogue Dataset for Conversational Text-to-Speech ( http://arxiv.org/abs/2207.01063v1 )

ライセンス: Link先を確認
Keon Lee, Kyumin Park, Daeyoung Kim(参考訳) 現在のttsデータセットの大部分は、個々の発話の集合であり、スタイルとメタデータの両面で会話的な側面がほとんどない。 本稿では,テキスト音声のための高品質な会話音声データセットであるDailyTalkを紹介する。 各対話の文脈を表現するのに十分な長さのオープンドメイン対話データセットであるdailydialogから,2,541の対話をサンプリング,修正,記録した。 データ構築のステップでは、dailytalkの多様な対話をサポートするために、dailydialogでアノテートされた属性の配布を維持しました。 データセット上では、非自己回帰的TSがダイアログの履歴情報に基づいて条件付けされるように、前処理をベースラインとして拡張します。 我々は,ttsモデルが歴史的対話情報を学習できるようにメタデータを収集し,文脈認識音声生成の鍵となる。 ベースライン実験の結果から,DailyTalkはニューラルテキスト音声モデルのトレーニングに利用でき,ベースラインは文脈情報を表現することができることを示した。 DailyTalkデータセットとベースラインコードは、CC-BY-SA 4.0ライセンスで学術的に自由に利用できる。

The majority of current TTS datasets, which are collections of individual utterances, contain few conversational aspects in terms of both style and metadata. In this paper, we introduce DailyTalk, a high-quality conversational speech dataset designed for Text-to-Speech. We sampled, modified, and recorded 2,541 dialogues from the open-domain dialogue dataset DailyDialog which are adequately long to represent context of each dialogue. During the data construction step, we maintained attributes distribution originally annotated in DailyDialog to support diverse dialogue in DailyTalk. On top of our dataset, we extend prior work as our baseline, where a non-autoregressive TTS is conditioned on historical information in a dialog. We gather metadata so that a TTS model can learn historical dialog information, the key to generating context-aware speech. From the baseline experiment results, we show that DailyTalk can be used to train neural text-to-speech models, and our baseline can represent contextual information. The DailyTalk dataset and baseline code are freely available for academic use with CC-BY-SA 4.0 license.
翻訳日:2022-07-05 13:05:46 公開日:2022-07-03
# マルチソースMTLを用いたディジタルツイン強化金属管曲げ加工のリアルタイム予測法

Digital-twin-enhanced metal tube bending forming real-time prediction method based on Multi-source-input MTL ( http://arxiv.org/abs/2207.00961v1 )

ライセンス: Link先を確認
Chang Sun (1), Zili Wang (1 and 2), Shuyou Zhang (1 and 2), Taotao Zhou (1), Jie Li (1), Jianrong Tan (1 and 2)(参考訳) 最も広く使われている金属管曲げ法の一つとして、ロータリードローイング曲げ(RDB)プロセスは、信頼性が高く高精度な金属管曲げ成形(MTBF)を可能にする。 形成精度は, メカニズム解析が困難であるばねバックおよび他の潜在的な形成欠陥に深刻な影響を受ける。 同時に、既存の手法は主にオフライン空間で行われ、物理的世界のリアルタイム情報を無視している。 この問題に対処するため,マルチソース・インプット・マルチタスク・ラーニング(MTL)に基づくリアルタイム予測手法を提案する。 新しい手法は、総合的なMCBFリアルタイム予測を実現することができる。 マルチクローズドメインの共通機能を共有し、特徴共有と受け入れ層にグループ正規化戦略を採用することにより、マルチソースMTLの精度と効率を保証できる。 dtにより強化された物理実時間変形データは、改良されたグラミーアングルフィールド(gaf)変換により画像次元に整列され、実際の処理の反映を実現する。 従来のオフライン予測方法とは異なり、新しい手法は仮想データと物理データを統合し、より効率的で正確なリアルタイム予測結果を実現する。 そして、仮想システムと物理システムの間のDTマッピング接続を実現することができる。 機器誤差の影響を排除するため,本手法の有効性を物理実験で検証したFEシミュレーションシナリオで検証した。 同時に、一般的な事前学習ネットワークを提案手法と比較する。 その結果,提案手法はより正確かつ効率的であることがわかった。

As one of the most widely used metal tube bending methods, the rotary draw bending (RDB) process enables reliable and high-precision metal tube bending forming (MTBF). The forming accuracy is seriously affected by the springback and other potential forming defects, of which the mechanism analysis is difficult to deal with. At the same time, the existing methods are mainly conducted in offline space, ignoring the real-time information in the physical world, which is unreliable and inefficient. To address this issue, a digital-twin-enhanced (DT-enhanced) metal tube bending forming real-time prediction method based on multi-source-input multi-task learning (MTL) is proposed. The new method can achieve comprehensive MTBF real-time prediction. By sharing the common feature of the multi-close domain and adopting group regularization strategy on feature sharing and accepting layers, the accuracy and efficiency of the multi-source-input MTL can be guaranteed. Enhanced by DT, the physical real-time deformation data is aligned in the image dimension by an improved Grammy Angle Field (GAF) conversion, realizing the reflection of the actual processing. Different from the traditional offline prediction methods, the new method integrates the virtual and physical data to achieve a more efficient and accurate real-time prediction result. and the DT mapping connection between virtual and physical systems can be achieved. To exclude the effects of equipment errors, the effectiveness of the proposed method is verified on the physical experiment-verified FE simulation scenarios. At the same time, the common pre-training networks are compared with the proposed method. The results show that the proposed DT-enhanced prediction method is more accurate and efficient.
翻訳日:2022-07-05 13:05:16 公開日:2022-07-03
# 逆体験リプレイを用いたLTIシステムの分散オンラインシステム同定

Distributed Online System Identification for LTI Systems Using Reverse Experience Replay ( http://arxiv.org/abs/2207.01062v1 )

ライセンス: Link先を確認
Ting-Jui Chang and Shahin Shahrampour(参考訳) 線形時間不変系(LTI)の同定は制御と強化学習において重要な役割を果たす。 漸近的および有限時間オフラインシステムの識別は、文献でよく研究されている。 オンラインシステム同定のために、データシーケンスを複数のバッファに格納し、sgd(stochastic-gradient descent)アップデートが各バッファで後方に実行され、データポイント間の時間依存性を損なう、リバースエクスペリエンスリプレイ(sgd-rer)を用いた確率的勾配降下(sgd-rer)のアイデアが最近提案されている。 本研究では,マルチエージェントネットワーク上でのLTIシステムの分散オンライン識別について検討した。 我々はエージェントを同一のLTIシステムとみなし、エージェント間の通信を利用してシステムパラメータを共同で推定することを目的とする。 本研究では,sgd-rerアルゴリズムの分散型であるdsgd-rerを提案し,ネットワークサイズに対する推定誤差の改善を理論的に特徴付ける。 我々の数値実験は,ネットワークサイズが大きくなるにつれて推定誤差の低減を証明している。

Identification of linear time-invariant (LTI) systems plays an important role in control and reinforcement learning. Both asymptotic and finite-time offline system identification are well-studied in the literature. For online system identification, the idea of stochastic-gradient descent with reverse experience replay (SGD-RER) was recently proposed, where the data sequence is stored in several buffers and the stochastic-gradient descent (SGD) update performs backward in each buffer to break the time dependency between data points. Inspired by this work, we study distributed online system identification of LTI systems over a multi-agent network. We consider agents as identical LTI systems, and the network goal is to jointly estimate the system parameters by leveraging the communication between agents. We propose DSGD-RER, a distributed variant of the SGD-RER algorithm, and theoretically characterize the improvement of the estimation error with respect to the network size. Our numerical experiments certify the reduction of estimation error as the network size grows.
翻訳日:2022-07-05 13:00:37 公開日:2022-07-03
# 画素によるオフポリティディープ強化学習の安定化

Stabilizing Off-Policy Deep Reinforcement Learning from Pixels ( http://arxiv.org/abs/2207.00986v1 )

ライセンス: Link先を確認
Edoardo Cetin, Philip J. Ball, Steve Roberts, Oya Celiktutan(参考訳) 画素観測によるオフポリティクス強化学習(RL)は不安定である。 その結果、多くの成功したアルゴリズムは、複雑な環境で意味のある振る舞いを学ぶために、異なるドメイン固有のプラクティスと補助的損失を組み合わせる必要がある。 本研究では,畳み込みエンコーダと低マグニチュード報酬を用いた時間差学習により,これらの不安定性が生じることを示す新しい分析法を提案する。 この新たな視覚的致命的な三重項は、不安定なトレーニングと早期収束を引き起こして解を退縮させる現象である。 そこで,本研究では,符号化器の勾配に適応的な正則化を提供する手法であるa-lixを提案する。 A-LIXを適用することで、DeepMind ControlやAtari 100kベンチマークにおいて、データ拡張や補助的な損失を伴わずに、先行技術よりも大幅に優れています。

Off-policy reinforcement learning (RL) from pixel observations is notoriously unstable. As a result, many successful algorithms must combine different domain-specific practices and auxiliary losses to learn meaningful behaviors in complex environments. In this work, we provide novel analysis demonstrating that these instabilities arise from performing temporal-difference learning with a convolutional encoder and low-magnitude rewards. We show that this new visual deadly triad causes unstable training and premature convergence to degenerate solutions, a phenomenon we name catastrophic self-overfitting. Based on our analysis, we propose A-LIX, a method providing adaptive regularization to the encoder's gradients that explicitly prevents the occurrence of catastrophic self-overfitting using a dual objective. By applying A-LIX, we significantly outperform the prior state-of-the-art on the DeepMind Control and Atari 100k benchmarks without any data augmentation or auxiliary losses.
翻訳日:2022-07-05 12:39:13 公開日:2022-07-03
# 記号回帰はnpハードである

Symbolic Regression is NP-hard ( http://arxiv.org/abs/2207.01018v1 )

ライセンス: Link先を確認
Marco Virgolin, Solon P. Pissis(参考訳) シンボリック回帰(シンボリックレグレッション、英: Symbolic regression、SR)は、数学的表現の形でデータのモデルを学ぶタスクである。 その性質上、SRモデルは正確で人間に解釈できる可能性を持っている。 残念なことに、そのようなモデル、すなわちSRを実行することは、計算集約的なタスクである。 歴史的に、SRは欲求や遺伝的アルゴリズムのようなヒューリスティックな手法に取り組んでおり、SRの硬さを示唆する研究もあるが、実際にはNPハードであることの証明は与えられていない。 SRモデルを計算するための正確な多項式時間アルゴリズムはあるだろうか? SR が NP ハードであることを示すことによって、答えがおそらく負であることを示す証拠を提供する。

Symbolic regression (SR) is the task of learning a model of data in the form of a mathematical expression. By their nature, SR models have the potential to be accurate and human-interpretable at the same time. Unfortunately, finding such models, i.e., performing SR, appears to be a computationally intensive task. Historically, SR has been tackled with heuristics such as greedy or genetic algorithms and, while some works have hinted at the possible hardness of SR, no proof has yet been given that SR is, in fact, NP-hard. This begs the question: Is there an exact polynomial-time algorithm to compute SR models? We provide evidence suggesting that the answer is probably negative by showing that SR is NP-hard.
翻訳日:2022-07-05 12:38:14 公開日:2022-07-03
# (参考訳) ZeroC: ゼロショット概念認識と推論時の獲得のためのニューロシンボリックモデル

ZeroC: A Neuro-Symbolic Model for Zero-shot Concept Recognition and Acquisition at Inference Time ( http://arxiv.org/abs/2206.15049v2 )

ライセンス: CC BY 4.0
Tailin Wu, Megan Tjandrasuwita, Zhengxuan Wu, Xuelin Yang, Kevin Liu, Rok Sosi\v{c}, Jure Leskovec(参考訳) 人間はゼロショットで新しい視覚概念を認識し、獲得する能力を持っている。 以前に学習した視覚概念とその関係の観点から、新しい概念の高水準で象徴的な記述を考えると、人間は例を見ずに、新しい概念を認識できる。 さらに、学習した視覚概念と関係を用いてシンボリック構造を解析し、通信することで、新しい概念を得ることができる。 これらの機能をマシンに組み込むことは、推論時に一般化能力を改善する上で重要である。 本研究では,ゼロショット概念認識と獲得(ZeroC)を導入し,ゼロショット方式で新しい概念を認識・取得できるニューロシンボリックアーキテクチャを提案する。 ZeroCは概念を構成概念モデル(ノード)とその関係(エッジ)のグラフとして表現する。 推論時間の構成を可能にするため、エネルギーベースモデル(EBM)を用いて概念と関係をモデル化する。 我々は、ZeroCアーキテクチャを設計し、概念のシンボルグラフ構造とその対応するEMMを1対1でマッピングできるようにし、新しい概念を初めて獲得し、そのグラフ構造を通信し、推論時に分類および検出タスク(ドメイン間でさえ)に適用することを可能にする。 我々はZeroCで学習と推論を行うアルゴリズムを導入する。 我々はゼロショットの概念認識と取得を探索するために設計されたグリッドワールドデータセット上でZeroCを評価し、その能力を実証する。

Humans have the remarkable ability to recognize and acquire novel visual concepts in a zero-shot manner. Given a high-level, symbolic description of a novel concept in terms of previously learned visual concepts and their relations, humans can recognize novel concepts without seeing any examples. Moreover, they can acquire new concepts by parsing and communicating symbolic structures using learned visual concepts and relations. Endowing these capabilities in machines is pivotal in improving their generalization capability at inference time. In this work, we introduce Zero-shot Concept Recognition and Acquisition (ZeroC), a neuro-symbolic architecture that can recognize and acquire novel concepts in a zero-shot way. ZeroC represents concepts as graphs of constituent concept models (as nodes) and their relations (as edges). To allow inference time composition, we employ energy-based models (EBMs) to model concepts and relations. We design ZeroC architecture so that it allows a one-to-one mapping between a symbolic graph structure of a concept and its corresponding EBM, which for the first time, allows acquiring new concepts, communicating its graph structure, and applying it to classification and detection tasks (even across domains) at inference time. We introduce algorithms for learning and inference with ZeroC. We evaluate ZeroC on a challenging grid-world dataset which is designed to probe zero-shot concept recognition and acquisition, and demonstrate its capability.
翻訳日:2022-07-05 11:28:42 公開日:2022-07-03
# (参考訳) 確率表現学習のためのラプラシアンオートエンコーダ

Laplacian Autoencoders for Learning Stochastic Representations ( http://arxiv.org/abs/2206.15078v2 )

ライセンス: CC BY 4.0
Marco Miani and Frederik Warburg and Pablo Moreno-Mu\~noz and Nicke Skafte Detlefsen and S{\o}ren Hauberg(参考訳) 変分オートエンコーダのような教師なし表現学習のための確立された手法は、学習された表現が安定して信頼性が高いかどうかを評価するのが困難である。 本研究では,教師なし表現学習のためのベイズ自動エンコーダを提案する。 これはラプラス近似の形をとる変分分布を持つモンテカルロEMを用いて最大化される。 我々は,データサイズと線形にスケールし,高次元データをモデル化できる新しいヘッセン近似法を開発した。 経験的に、我々のラプラシアオートエンコーダは、潜在空間と出力空間の両方において、よく校正された不確かさを推定する。 これにより,多数のダウンストリームタスクのパフォーマンスが向上することを示す。

Established methods for unsupervised representation learning such as variational autoencoders produce none or poorly calibrated uncertainty estimates making it difficult to evaluate if learned representations are stable and reliable. In this work, we present a Bayesian autoencoder for unsupervised representation learning, which is trained using a novel variational lower-bound of the autoencoder evidence. This is maximized using Monte Carlo EM with a variational distribution that takes the shape of a Laplace approximation. We develop a new Hessian approximation that scales linearly with data size allowing us to model high-dimensional data. Empirically, we show that our Laplacian autoencoder estimates well-calibrated uncertainties in both latent and output space. We demonstrate that this results in improved performance across a multitude of downstream tasks.
翻訳日:2022-07-05 10:57:13 公開日:2022-07-03