このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220820となっている論文です。

PDF登録状況(公開日: 20220820)

TitleAuthorsAbstract論文公表日・翻訳日
# 極小数の量子エミッタによるフォトニック資源状態の生成

Photonic resource state generation from a minimal number of quantum emitters ( http://arxiv.org/abs/2108.12466v2 )

ライセンス: Link先を確認
Bikun Li, Sophia E. Economou and Edwin Barnes(参考訳) 多光子絡み合ったグラフ状態は、量子通信ネットワーク、分散量子コンピューティング、センシングの基本的なリソースである。 これらの状態は原理上、光学活性量子ドットや欠陥、原子系、超伝導量子ビットなどの量子エミッタから決定論的に生成することができる。 しかし、そのような状態を作り出すための効率的なスキームを見つけることは長年の課題だった。 本稿では、所望の多光子グラフ状態が与えられた場合、最小数の量子エミッタとそれを生成する正確な演算シーケンスを決定するアルゴリズムを提案する。 アルゴリズム自体と結果の操作シーケンスはどちらもフォトニックグラフ状態のサイズに多項式的にスケールし、数百から数千の光子を含むグラフ状態を生成する効率的なスキームを得ることができる。

Multi-photon entangled graph states are a fundamental resource in quantum communication networks, distributed quantum computing, and sensing. These states can in principle be created deterministically from quantum emitters such as optically active quantum dots or defects, atomic systems, or superconducting qubits. However, finding efficient schemes to produce such states has been a long-standing challenge. Here, we present an algorithm that, given a desired multi-photon graph state, determines the minimum number of quantum emitters and precise operation sequences that can produce it. The algorithm itself and the resulting operation sequence both scale polynomially in the size of the photonic graph state, allowing one to obtain efficient schemes to generate graph states containing hundreds or thousands of photons.
翻訳日:2023-03-17 00:53:53 公開日:2022-08-20
# 大規模スカラー場からの真空放射

Vacuum radiation from massive scalar field ( http://arxiv.org/abs/2110.04128v2 )

ライセンス: Link先を確認
Yu-Song Cao(参考訳) 巨大なスカラー場の真空放射は、単一の動鏡を用いて研究される。 d+1)$次元で動く任意の形のミラーを持つ場方程式は、非相対論的極限において摂動的に与えられる。 明示的な結果は、$(1+1)$次元と$(3+1)$次元で動く平面ミラーに対して得られる。 鏡上の真空放射力と真空摩擦力は、$(1+1)$次元で与えられる。 磁場の固有質量は真空放射を抑制する。 $(3+1)$次元では、固有質量による放出粒子の周波数スペクトルと角スペクトルの変化が得られる。 m\to 0$ の極限において、無質量場の結果を回復する。

The vacuum radiation of a massive scalar field is studied by means of a single moving mirror. The field equation with an arbitrary-shaped mirror moving in $(d+1)$ dimensions is given perturbatively in the non-relativistic limit. Explicit results are obtained for a flat mirror moving in $(1+1)$ dimensions and $(3+1)$ dimensions. The vacuum radiation power and vacuum friction force on the mirror are given in $(1+1)$ dimensions. The intrinsic mass of the field is found to suppress the vacuum radiation. In $(3+1)$ dimensions, the modification of the frequency spectra and angular spectra of emitted particles due to the intrinsic mass are obtained. In the limit of $m\to 0$, we recover the results of the massless field.
翻訳日:2023-03-12 01:04:43 公開日:2022-08-20
# 横結合量子ビットにおける熱伝達:共通貯留層を有する光制御熱変調器

Heat transfer in transversely coupled qubits: Optically controlled thermal modulator with common reservoirs ( http://arxiv.org/abs/2203.14050v2 )

ライセンス: Link先を確認
Yi-jia Yang, Yu-qiang Liu and Chang-shui Yu(参考訳) 本稿では,2種類の熱貯留層に接触する2つの逆結合量子ビットによる熱伝達を系統的に研究した。 1つは独立した熱貯水池で、1つの量子ビットのみと相互作用し、もう1つは2つの量子ビットと同時に相互作用できる共通の熱貯水池である。 独立した熱貯水池と比較すると、一般的な貯水池は常に熱流を抑制する。 しかし、高い固有周波数に対応する散逸速度が低い固有周波数に対応するものよりも著しく高い場合、共通環境は熱電流を高めることができる。 特に、2つの量子ビットと適切な散逸の共振結合の場合、定常状態は、進化せず、ゼロ熱電流に寄与しない定常ダーク状態と、最大熱電流に対応する残留定常状態とに分解することができる。 この暗黒状態により、外部制御フィールドで定常的な熱電流を制御し、熱変調器を設計できる。 さらに, 系と貯水池の間の散逸性サブチャネルには逆熱流が存在する可能性があり, 一般的な蓄熱器の抑制の役割を解釈している。 また,システムのcoa(concurrence of assistance)を計算し,熱流とcoaが温度と同一の傾向であることを見出し,さらに熱輸送を規制する資源として絡み合いが考えられることを示した。

This paper systematically studied heat transfer through two transversely coupled qubits in contact with two types of heat reservoirs. One is the independent heat reservoir which essentially interacts with only a single qubit, the other is the common heat reservoir which is allowed to simultaneously interact with two qubits. Compared to independent heat reservoirs, common reservoirs always suppress heat current in most cases. However, the common environment could enhance heat current, if the dissipation rate corresponding to the higher eigenfrequency is significantly higher than that corresponding to the lower eigenfrequency. In particular, in the case of resonant coupling of two qubits and the proper dissipations, the steady state can be decomposed into a stationary dark state which doesn't evolve and contributes zero heat current, and a residual steady state which corresponds to the maximal heat current. This dark state enables us to control steady-state heat current with an external control field and design a thermal modulator. In addition, we find that inverse heat currents could be present in the dissipative subchannels between the system and reservoirs, which interprets the suppression roles of common heat reservoirs. We also calculate the concurrence of assistance (COA) of the system and find that heat current and COA have the same trend with temperature, which further indicates that entanglement can be regarded as a resource to regulate heat transport.
翻訳日:2023-02-20 18:49:29 公開日:2022-08-20
# エッジ対応メタバースの実現に向けて - ビジョン, 実現技術, 課題

A Full Dive into Realizing the Edge-enabled Metaverse: Visions, Enabling Technologies,and Challenges ( http://arxiv.org/abs/2203.05471v2 )

ライセンス: Link先を確認
Minrui Xu, Wei Chong Ng, Wei Yang Bryan Lim, Jiawen Kang, Zehui Xiong, Dusit Niyato, Qiang Yang, Xuemin Sherman Shen, and Chunyan Miao(参考訳) モバイルインターネットの後継」と呼ばれ、メタバースの概念は人気が高まっている。 現在、メタバースの礼儀正しいバージョンは存在するが、没入的で具現化され、相互運用可能なメタバースの完全なビジョンを実現するには程遠い。 コミュニケーションやネットワーク、計算の観点から実装の問題に対処せずに、メタバースはインターネットを成功させることは困難である。 本稿では,エッジ対応メタバースに着目し,その究極のビジョンを実現する。 私たちはまず、Metaverseの簡潔なチュートリアル、アーキテクチャの導入、そして現在の開発について読者に説明します。 ユビキタス,シームレス,具体化されたMetaverseへのアクセスを実現するため,Metaverseのエンボディ化されたアバターをユーザに提供する次世代通信システムを活用した最先端のソリューションとコンセプトについて検討する。 さらに、3d仮想世界をレンダリングし、データにハングされた人工知能駆動のアバターを実行するのに必要な高い計算コストを考えると、リソース制約のあるエッジデバイスでメタバースを実現するために、計算課題とクラウドエッジエンドの計算フレームワーク駆動のソリューションについて論じる。 次に、ブロックチェーン技術がMetaverseの相互運用可能な開発にどのように役立つかを、仮想ユーザ生成コンテンツの経済的な流通を促進するだけでなく、分散的で透明で不変な方法で物理的なエッジリソースを管理するためにも検討する。 最後に,エッジ対応メタバースの真のビジョンの実現に向けた今後の研究方向性について論じる。

Dubbed "the successor to the mobile Internet", the concept of the Metaverse has grown in popularity. While there exist lite versions of the Metaverse today, they are still far from realizing the full vision of an immersive, embodied, and interoperable Metaverse. Without addressing the issues of implementation from the communication and networking, as well as computation perspectives, the Metaverse is difficult to succeed the Internet, especially in terms of its accessibility to billions of users today. In this survey, we focus on the edge-enabled Metaverse to realize its ultimate vision. We first provide readers with a succinct tutorial of the Metaverse, an introduction to the architecture, as well as current developments. To enable ubiquitous, seamless, and embodied access to the Metaverse, we discuss the communication and networking challenges and survey cutting-edge solutions and concepts that leverage next-generation communication systems for users to immerse as and interact with embodied avatars in the Metaverse. Moreover, given the high computation costs required, e.g., to render 3D virtual worlds and run data-hungry artificial intelligence-driven avatars, we discuss the computation challenges and cloud-edge-end computation framework-driven solutions to realize the Metaverse on resource-constrained edge devices. Next, we explore how blockchain technologies can aid in the interoperable development of the Metaverse, not just in terms of empowering the economic circulation of virtual user-generated content but also to manage physical edge resources in a decentralized, transparent, and immutable manner. Finally, we discuss the future research directions towards realizing the true vision of the edge-enabled Metaverse.
翻訳日:2023-02-19 15:32:37 公開日:2022-08-20
# ナイジェリアにおけるCovid-19ワクチン接種進展の視覚的データ解析

Visual Exploratory Data Analysis of the Covid-19 Vaccination Progress in Nigeria ( http://arxiv.org/abs/2208.09650v1 )

ライセンス: Link先を確認
Ugochukwu Orji, Chikodili Ugwuishiwu, Mathew Okoronkwo, Caroline Asogwa, Nnaemeka Ogbene(参考訳) 2020年の新型コロナウイルスの感染拡大で、ナイジェリアを含む世界の経済は打撃を受け、深刻な不況に陥った。 国は徐々に回復し、ワクチンは新型コロナウイルスの感染拡大を抑えるのに役立っている。 2022年5月31日現在、18,728,188人が完全にワクチンを接種されている。 ナイジェリアの人口のおよそ10%が206.7億人と推計されている。 本稿では,R Studio IDE の R-tidyverse パッケージを用いて,ナイジェリアにおけるコビッド-19 ワクチン接種状況の視覚的データ分析を行い,その可視化を行う。 我々のデータセットは、ワクチンを担当するナイジェリア国立プライマリ・ヘルス・ケア・デベロップメント・エージェンシー(NPHCDA)のものです。 この研究で使用されるデータは、2021年3月5日から5月31日までに記録されたCovid-19ワクチンの州別分布の崩壊を含んでいる。 本稿では,EDAの結果を視覚的に提示することで,これらのデータ分析ツールや技術が生データにおける洞察の発見にどのように役立つかを示す。 さらに,ナイジェリアおよび州におけるcovid-19ワクチン接種動向を国別分布で示すことで,covid-19研究の文献の発展に貢献している。

The coronavirus outbreak in 2020 devastated the world's economy, including Nigeria, even resulted in a severe recession. Slowly the country is building back again, and the vaccines are helping to reduce the spread of covid-19. Since the covid-19 vaccine came to Nigeria; 18,728,188 people have been fully vaccinated as at May 31st, 2022. This is roughly 10% of the Nigerian population estimated at 206.7 million [1]. This paper presents a visual Exploratory Data Analysis of the covid-19 vaccination progress in Nigeria using the R-tidyverse package in R studio IDE for data cleaning & analysis, and Tableau for the visualizations. Our dataset is from the Nigerian National Primary Health Care Development Agency (NPHCDA) in charge of the vaccines. The data used for this research contain the state-by-state breakdown of Covid-19 vaccine distribution recorded between March 5th, 2021, and May 31st, 2022. This paper aims to show how these data analytics tools and techniques can be useful in finding insights in raw data by presenting the results of the EDA visually thus reducing the ambiguity and possible confusions that is associated with data in tables. Furthermore, our findings contribute to the growing literature on Covid-19 research by showcasing the Covid-19 vaccination trend in Nigeria and the state by state distribution.
翻訳日:2023-02-19 10:37:33 公開日:2022-08-20
# キラル例外点における異常自然放出ダイナミクス

Anomalous spontaneous emission dynamics at chiral exceptional points ( http://arxiv.org/abs/2204.04931v4 )

ライセンス: Link先を確認
Yuwei Lu, Yanhui Zhao, Runhua Li, Jingfeng Liu(参考訳) 例外点 (EPs) として知られる次元が減少するスペクトル特異点で動く開量子系は、エルミート運動と区別する挙動を示す。 本稿では、キラルEPを特徴とする微小キャビティにおける状態の局所密度(LDOS)の解析的記述と、EPの非ローレンツ応答による量子エミッタ(QE)からの異常自然放出ダイナミクスを明らかにする。 具体的には、キラルなepsに寄与するldoの正方形ローレンツ項が線形ローレンツ型プロファイルに破壊的に干渉し、特別な遷移周波数のqeへのヌルパーセルの強化をもたらすことを明らかにし、これを"it{ep induced transparency}}"と呼ぶ。 構成的干渉の場合、正方形のローレンツ項は素成分よりも下にあるラビの直線幅を狭め、したがってラビ振動の減衰を著しく抑制することができる。 興味深いことに、キラルEPを持つオープンマイクロキャビティは、長期力学における集団トラップと崩壊抑制のために原子-光子結合状態をサポートする。 キラルepsで動作するマイクロキャビティの長所を,高忠実なエンタングルメント生成と高効率単一光子生成に応用できることを実証する。 これは非ヘルミティシティによって量子レベルで光・物質相互作用を制御するための扉を開き、高性能量子光学デバイスを構築する上で大きな可能性を秘めている。

An open quantum system operated at the spectral singularities where dimensionality reduces, known as exceptional points (EPs), demonstrates distinguishing behavior from the Hermitian counterpart. Here, we present an analytical description of local density of states (LDOS) for microcavity featuring chiral EPs, and unveil the anomalous spontaneous emission dynamics from a quantum emitter (QE) due to the non-Lorentzian response of EPs. Specifically, we reveal that a square Lorentzian term of LDOS contributed by chiral EPs can destructively interfere with the linear Lorentzian profile, resulting in the null Purcell enhancement to a QE with special transition frequency, which we call {\it{EP induced transparency}}. While for the case of constructive interference, the square Lorentzian term can narrow the linewidth of Rabi splitting even below that of bare components, and thus significantly suppresses the decay of Rabi oscillation. Interestingly, we further find that an open microcavity with chiral EPs supports atom-photon bound states for population trapping and decay suppression in long-time dynamics. As applications, we demonstrate the advantages of microcavity operated at chiral EPs in achieving high-fidelity entanglement generation and high-efficiency single-photon generation. Our work unveils the exotic cavity quantum electrodynamics unique to chiral EPs, which opens the door for controlling light-matter interaction at the quantum level through non-Hermiticity, and holds great potential in building high-performance quantum-optics devices.
翻訳日:2023-02-17 08:20:34 公開日:2022-08-20
# ハイゼンベルクの不確実性原理と粒子軌道

Heisenberg's uncertainty principle and particle trajectories ( http://arxiv.org/abs/2208.12735v1 )

ライセンス: Link先を確認
Serj Aristarhov(参考訳) 本稿では、量子論における軌跡に続く点粒子のオントロジーに対するW. Heisenbergの主張を批判的に分析し、1927年の有名な論文と1929年のシカゴの講義で発表した。 その過程で,ハイゼンベルクの不確実性関係の意味を明らかにし,それに関連するいくつかの混乱を解消するのに役立つ。

In this paper we critically analyse W. Heisenberg's arguments against the ontology of point particles following trajectories in quantum theory, presented in his famous 1927 paper and in his Chicago lectures (1929). Along the way, we will clarify the meaning of Heisenberg's uncertainty relation and help resolve some confusions related to it.
翻訳日:2023-01-30 09:37:13 公開日:2022-08-20
# 水中チャネルにおける量子鍵分布の性能解析

Performance Analysis of Quantum Key Distribution in Underwater Channels ( http://arxiv.org/abs/2208.11493v1 )

ライセンス: Link先を確認
Amir Hossein Fahim Raouf(参考訳) 量子鍵分布(QKD)に関する現在の文献は、主に光ファイバー、大気、衛星リンク上の伝送に限られており、異なるチャネル特性を持つ水中環境には直接適用できない。 水中チャネルで経験した吸収、散乱、乱流は、量子通信リンクの範囲を著しく制限する。 この論文の前半では、水中チャネルにおけるよく知られたBB84プロトコルの量子ビット誤り率(QBER)と秘密鍵レート(SKR)の性能を分析した。 経路損失モデルとして,散乱の影響を考慮したBeer-Lambert式の改良版を考える。 波動構造関数のクローズドフォーム式を導出し、乱流水中経路上の平均電力移動を決定、これを用いてQBER上の上界とSKR上の下界を得る。 この論文の第2部では、範囲制限を克服する潜在的な解決策として、ソースノードと宛先ノードの間の中間ノードが鍵分布を助けるマルチホップ水中QKDについて検討する。 我々は、キュービットを測定せずに次の中継ノードや受信機にリダイレクトするパッシブリレーの配置を検討する。 近接場解析に基づいて,異なる水型および乱流条件下でのQBERおよびSKRの観点から,リレー支援QKD方式の性能を示す。 本論文の最後段では,乱流水中チャネル上でのdecoy bb84プロトコルの性能限界について検討し,包括的な性能評価を行う。 近接場解析に基づいて,波動構造関数を用いて乱流水中経路上の平均電力伝達量を推定し,これを用いて鍵発生率の低い値を求める。 本報告では, BB84プロトコルの異なる水系における性能について述べる。

The current literature on quantum key distribution (QKD) is mainly limited to the transmissions over fiber optic, atmospheric or satellite links and are not directly applicable to underwater environments with different channel characteristics. Absorption, scattering, and turbulence experienced in underwater channels severely limit the range of quantum communication links. In the first part of this thesis, we analyze the quantum bit error rate (QBER) and secret key rate (SKR) performance of the well-known BB84 protocol in underwater channels. As path loss model, we consider a modified version of Beer-Lambert formula which takes into account the effect of scattering. We derive a closed-form expression for the wave structure function to determine the average power transfer over turbulent underwater path and use this to obtain an upper bound on QBER as well as a lower bound on SKR. In the second part of this thesis, as a potential solution to overcome range limitations, we investigate a multi-hop underwater QKD where intermediate nodes between the source and destination nodes help the key distribution. We consider the deployment of passive relays which simply redirect the qubits to the next relay node or the receiver without any measurement. Based on the near-field analysis, we present the performance of relay-assisted QKD scheme in terms of QBER and SKR in different water types and turbulence conditions. In the last part of this thesis, we investigate the fundamental performance limits of decoy BB84 protocol over turbulent underwater channels and provide a comprehensive performance characterization. Based on near field analysis, we utilize the wave structure function to determine the average power transfer over turbulent underwater path and use this to obtain a lower bound on key generation rate. Based on this bound, we present the performance of decoy BB84 protocol in different water type.
翻訳日:2023-01-30 09:37:06 公開日:2022-08-20
# 有限状態確率機械、非散逸的および散逸的強結合とシュレーディンガー模型の等価性

Equivalence between finite state stochastic machine, non-dissipative and dissipative tight-binding and Schroedinger model ( http://arxiv.org/abs/2208.09758v1 )

ライセンス: Link先を確認
Krzysztof Pomorski(参考訳) 有限状態確率機械と非散逸・散逸量子タイト結合およびシュレーディンガーモデルの間の数学的同値が導かれる。 確率的有限状態機械は古典的な流行モデルでも表現され、非散逸的かつ散逸的な場合にもフォン・ノイマンエントロピーによって記述された静電結合量子ビットで現れる量子絡み合いを再現することができる。 その結果,量子力学現象は有限状態確率機械で表される古典的統計モデルでシミュレートされる可能性が示唆された。 量子のような絡み合いと状態の重畳を含む。 したがって、古典力学の観点から古典システムによって表現される結合型流行モデルは、量子技術、特に量子のような計算や量子のような通信の基盤となる。 古典密度行列は、反可換性の観点から運動方程式によって導かれ、記述される。 ラビのような振動の存在は、古典的流行モデルにおいて指摘されている。 さらに、量子系におけるアハロノフ・ボーム効果の存在は古典的流行モデルや有限状態確率機械によってより広義に再現することもできる。 量子ドットから作られ、位置ベースの量子ビットを用いて単純化された強結合モデルによって記述された全ての量子系は、量子行列ハミルトンの2倍の大きさを持つS行列の非常に特異な構造を持つ有限確率状態機械に符号化された古典統計モデルによって効果的に記述することができる。 さらに、線形および非線形確率有限状態マシンの記述は、強結合およびシュレーディンガーモデルにマッピングされる。 n 次元複素時間の概念は密結合モデルに組み込まれているので、ほとんどの一般的な場合における散逸の記述は可能である。

The mathematical equivalence between finite state stochastic machine and non-dissipative and dissipative quantum tight-binding and Schroedinger model is derived. Stochastic Finite state machine is also expressed by classical epidemic model and can reproduce the quantum entanglement emerging in the case of electrostatically coupled qubits described by von-Neumann entropy both in non-dissipative and dissipative case. The obtained results shows that quantum mechanical phenomena might be simulated by classical statistical model as represented by finite state stochastic machine. It includes the quantum like entanglement and superposition of states. Therefore coupled epidemic models expressed by classical systems in terms of classical physics can be the base for possible incorporation of quantum technologies and in particular for quantum like computation and quantum like communication. The classical density matrix is derived and described by the equation of motion in terms of anticommutator. Existence of Rabi like oscillations is pointed in classical epidemic model. Furthermore the existence of Aharonov-Bohm effect in quantum systems can also be reproduced by the classical epidemic model or in broader sense by finite state stochastic machine. Every quantum system made from quantum dots and described by simplistic tight-binding model by use of position-based qubits can be effectively described by classical statistical model encoded in finite stochastic state machine with very specific structure of S matrix that has twice bigger size as it is the case of quantum matrix Hamiltonian. Furthermore the description of linear and non-linear stochastic finite state machine is mapped to tight-binding and Schroedinger model. The concept of N dimensional complex time is incorporated into tight-binding model, so the description of dissipation in most general case is possible.
翻訳日:2023-01-30 09:36:30 公開日:2022-08-20
# 相対論的量子トンネルは

Relativistic Quantum Tunnelling is Subluminal ( http://arxiv.org/abs/2208.09742v1 )

ライセンス: Link先を確認
Lorenzo Gavassino and Marcelo M. Disconzi(参考訳) 外部(非力学)電磁場の存在下での古典的ディラック方程式は相対論的因果理論であることを示す。 量子トンネリングを用いて粒子や情報を光よりも早く伝送することは不可能であることを示す。 電子が障壁を抜けるとき、それは将来の光円錐の中に留まることになる。 結論として、相対論的量子トンネル(ディラック方程式を用いてモデル化された場合)は、完全なサブルミナル過程である。

We prove that the classical Dirac equation in the presence of an external (non-dynamical) electromagnetic field is a relativistically causal theory. As a corollary, we show that it is impossible to use quantum tunnelling to transmit particles or information faster than light. When an electron tunnels through a barrier, it is bound to remain within its future lightcone. In conclusion, the relativistic quantum tunnelling (if modelled using the Dirac equation) is an entirely subluminal process.
翻訳日:2023-01-30 09:35:57 公開日:2022-08-20
# 調和振動子とそのはしご作用素およびコヒーレント状態の等価非有理拡大

Equivalent non-rational extensions of the harmonic oscillator, their ladder operators and coherent states ( http://arxiv.org/abs/2208.09733v1 )

ライセンス: Link先を確認
Alonso Contreras-Astorga, David J. Fern\'andez C. and C\'esar Muro-Cabral(参考訳) 本研究では、高調波発振器の非有理拡大である量子ポテンシャルの族を生成する。 そのような族は2つの異なるが等価な超対称変換によって得られる。 両変換の相互交叉作用素の積として、これらの拡張に対するはしご作用素を構築する。 次に, barut-girardelloコヒーレント状態の族を生成し, その性質のいくつかを時間安定性, ラベルの連続性, 完全性関係として解析する。 さらに、平均エネルギー値、時間依存確率密度、ウィグナー関数、マンデルqパラメータを計算し、これらの状態の一般的な非古典的挙動を明らかにする。

In this work, we generate a family of quantum potentials that are non-rational extensions of the harmonic oscillator. Such a family can be obtained via two different but equivalent supersymmetric transformations. We construct ladder operators for these extensions as the product of the intertwining operators of both transformations. Then, we generate families of Barut-Girardello coherent states and analyze some of their properties as temporal stability, continuity on the label, and completeness relation. Moreover, we calculate mean-energy values, time-dependent probability densities, Wigner functions, and the Mandel Q-parameter to uncover a general non-classical behavior of these states.
翻訳日:2023-01-30 09:35:50 公開日:2022-08-20
# デジタル画像処理のためのハイブリッド古典量子アルゴリズム

A hybrid classical-quantum algorithm for digital image processing ( http://arxiv.org/abs/2208.09714v1 )

ライセンス: Link先を確認
Alok Shukla, Prakash Vedula(参考訳) 多次元Walsh-Hadamard変換の評価のためのハイブリッド古典量子法とその量子画像処理への応用を提案する。 このアプローチでは、量子アダマールゲート(状態準備、シフト、スケーリング、測定操作とともに)を用いて多次元ウォルシュ・ハダマード変換が得られる。 多次元ウォルシュ・アダマール変換の評価のための提案手法は、古典的なファストウォルシュ・アダマール変換($O(N^d~\log_2 N^d)$演算を含む)とは対照的に、計算複雑性がかなり低い($O(N^d)$演算を含む)。 他の多くの量子画像表現や量子画像処理フレームワークとは異なり、提案手法では、$\log_2 N $ qubitsのみが$N \times N $ pixelsの画像を逐次処理するのに十分である。 提案手法の選択的適用例($ d=2 $)は,基本画像フィルタリングと周期的バンドリングノイズ除去に関係した計算例で示され,良好な結果が得られた。

A hybrid classical-quantum approach for evaluation of multi-dimensional Walsh-Hadamard transforms and its applications to quantum image processing are proposed. In this approach, multidimensional Walsh-Hadamard transforms are obtained using quantum Hadamard gates (along with state-preparation, shifting, scaling and measurement operations). The proposed approach for evaluation of multidimensional Walsh-Hadamard transform has a considerably lower computational complexity (involving $O(N^d)$ operations) in contrast to classical Fast Walsh-Hadamard transform (involving $O(N^d~\log_2 N^d)$ operations), where $d$ and $N$ denote the number of dimensions and degrees of freedom along each dimension. Unlike many other quantum image representation and quantum image processing frameworks, our proposed approach makes efficient use of qubits, where only $\log_2 N $ qubits are sufficient for sequential processing of an image of $ N \times N $ pixels. Selected applications of the proposed approach (for $ d=2 $) are demonstrated via computational examples relevant to basic image filtering and periodic banding noise removal and the results were found to be satisfactory.
翻訳日:2023-01-30 09:35:39 公開日:2022-08-20
# 量子場理論、トポロジカル物質、およびトポロジカル量子コンピューティング

Quantum Field Theories, Topological Materials, and Topological Quantum Computing ( http://arxiv.org/abs/2208.09707v1 )

ライセンス: Link先を確認
Muhammad Ilyas(参考訳) 量子コンピュータは、古典的コンピュータよりも指数関数的に高速に動作することができる。 これは重ね合わせの原理に基づいている。 しかし、デコヒーレンス効果により、量子状態の重畳は環境との相互作用によって破壊される。 量子系を完全に分離してデコヒーレンスをなくすことは、真の課題である。 この問題は、物質のトポロジカル量子相を用いることで回避できる。 これらの相はエノンと呼ばれる準粒子励起を持つ。 アノンは電荷束複合体であり、エキゾチックな分数統計を示す。 交換の順序が問題となるとき、アロンは非アベリア・アノンと呼ばれる。 トポロジカル超伝導体や量子ホール状態の準粒子におけるマヨラナフェルミオンは非アベリア異性体である。 このようなトポロジカルな物質相は基底状態の縮退を持つ。 2つ以上の非可換なアノンの融合は、複数のアノンの重ね合わせをもたらす。 トポロジカル量子ゲートは非アベリア・エノンのブレイディングと融合によって実装される。 フォールトトレランスは、オンのトポロジカルな自由度によって達成される。 このような自由度は非局所的であるため、局所摂動にはアクセスできない。 三項論理ゲートは二項論理ゲートよりもコンパクトであり、自然にメタプレクティック・エノンと呼ばれる正準モデルに現れる。 メタプレクティック・アノンの融合および分岐行列に対する数学的モデルは、再結合理論の量子的変形である。 この論文では、トポロジカル量子計算の包括的背景について述べる。 トポロジーと結び目理論、幾何学相、トポロジー材料、トポロジー量子場理論、再結合理論、圏論について議論する。 我々は,メタプレクティックアノンのブレイディングおよび位相電荷測定により,既存の量子三元算術ゲートを実現することを提案した。

A quantum computer can perform exponentially faster than its classical counterpart. It works on the principle of superposition. But due to the decoherence effect, the superposition of a quantum state gets destroyed by the interaction with the environment. It is a real challenge to completely isolate a quantum system to make it free of decoherence. This problem can be circumvented by the use of topological quantum phases of matter. These phases have quasiparticles excitations called anyons. The anyons are charge-flux composites and show exotic fractional statistics. When the order of exchange matters, then the anyons are called non-Abelian anyons. Majorana fermions in topological superconductors and quasiparticles in some quantum Hall states are non-Abelian anyons. Such topological phases of matter have a ground state degeneracy. The fusion of two or more non-Abelian anyons can result in a superposition of several anyons. The topological quantum gates are implemented by braiding and fusion of the non-Abelian anyons. The fault-tolerance is achieved through the topological degrees of freedom of anyons. Such degrees of freedom are non-local, hence inaccessible to the local perturbations. Ternary logic gates are more compact than their binary counterparts and naturally arise in a type of anyonic model called the metaplectic anyons. The mathematical model, for the fusion and braiding matrices of metaplectic anyons, is the quantum deformation of the recoupling theory. In this dissertation, we gave comprehensive background of topological quantum computation. Topology and knot theory, geometric phases, topological materials, topological quantum field theories, recoupling theory, and category theory are discussed. We proposed that the existing quantum ternary arithmetic gates can be realized by braiding and topological charge measurement of the metaplectic anyons.
翻訳日:2023-01-30 09:35:13 公開日:2022-08-20
# 高温アニールにより生成するダイヤモンドの光学安定コヒーレント色中心の微視的研究

Microscopic study of optically-stable, coherent color centers in diamond generated by high-temperature annealing ( http://arxiv.org/abs/2208.09691v1 )

ライセンス: Link先を確認
King Cho Wong, San Lam Ng, Kin On Ho, Yang Shen, Jiahao Wu, Kwing To Lai, Man Yin Leung, Wai Kuen Leung, Durga Bhaktavatsala Rao Dasari, Andrej Denisenko, J\"org Wrachtrup, and Sen Yang(参考訳) 固体の単一色中心は、量子情報科学の有望な物理プラットフォームとして現れてきた。 優れた量子特性を持つこれらのセンターを作ることは、さらなる技術発展の鍵となる基礎である。 特に、スピン浴環境の微視的理解は、量子制御のための色中心を設計する鍵となる。 本研究では, 埋込み自由ダイヤモンド中の窒素空孔 (NV) を高品質に生成するための高温アニール (HTA) アプローチを提案し, 実証する。 生成したnvセンターを局所環境のプローブとして使用することにより,htaによる損傷は微視的に起こらないことを確認した。 超低窒素濃縮膜で生成されるほぼ全てのNV中心は、安定かつフーリエ変換スペクトルを持つ。 さらに、HTAはアンサンブルサンプルで自然に発生するノイズ源を強く低減し、デコヒーレンス時間と感度の3倍以上の改善をもたらす。 また,特にH3およびP1中心の空孔活性化と欠陥修復が,スピン浴と色中心の再構成を説明できることを確認した。 この新たなアプローチは、空洞ベースの量子技術において強力なツールとなる。

Single color centers in solid have emerged as promising physical platforms for quantum information science. Creating these centers with excellent quantum properties is a key foundation for further technological developments. In particular, the microscopic understanding of the spin bath environments is the key to engineer color centers for quantum control. In this work, we propose and demonstrate a distinct high-temperature annealing (HTA) approach for creating high-quality nitrogen vacancy (NV) centers in implantation-free diamonds. Simultaneously using the created NV centers as probes for their local environment we verify that no damage was microscopically induced by the HTA. Nearly all single NV centers created in ultra-low-nitrogen-concentration membranes possess stable and Fourier-transform-limited optical spectra. Furthermore, HTA strongly reduces noise sources naturally grown in ensemble samples, and leads to more than three-fold improvements of decoherence time and sensitivity. We also verify that the vacancy activation and defect reformation, especially H3 and P1 centers, can explain the reconfiguration between spin baths and color centers. This novel approach will become a powerful tool in vacancy-based quantum technology.
翻訳日:2023-01-30 09:34:51 公開日:2022-08-20
# クロスカー効果による多変量機械モードの同時地中冷却

Simultaneous ground-state cooling of multiple degenerate mechanical modes through cross-Kerr effect ( http://arxiv.org/abs/2208.09641v1 )

ライセンス: Link先を確認
Pengyu Wen, Xuan Mao, Min Wang, Chuan Wang, Gui-Qin Li, Gui-Lu Long(参考訳) 複数の縮退した機械モードの同時冷却は、ダークモード効果が存在するため、オプトメカニカルシステムでは難しい問題である。 本稿では,2つの縮退メカニカルモードのダークモード効果を,クロスケラ非線形性を導入することにより破る,普遍的でスケーラブルな手法を提案する。 少なくとも4つの安定な状態は、標準光学系の双安定挙動とは異なるCK効果の存在下で、我々のスキームで達成できる。 定入力レーザーパワーの下では、有効デチューニングおよび機械共鳴周波数をCK非線形性によって変調することができ、冷却に最適なCK結合強度が得られる。 同様に、CK結合強度が固定された状態での冷却には最適の入力レーザーパワーがある。 複数の縮退機械モードのダークモード効果を複数のck効果を導入することで壊すように拡張することができる。 N多重縮退型機械モードN-1 CK効果の同時地中冷却の要求を満たすためには、異なる強度のN-1 CK効果が必要である。 本提案は,ダークモード制御における新たな知見を提供し,マクロシステムにおける複数の量子状態を操作する方法を提案する。

Simultaneous ground-state cooling of multiple degenerate mechanical modes is a tough issue in optomechanical system due to the existence of the dark mode effect. Here we propose a universal and scalable method to break the dark mode effect of two degenerate mechanical modes by introducing the cross-Kerr (CK) nonlinearity. At most four stable steady states can be achieved in our scheme in the presence of the CK effect, different from the bistable behavior of the standard optomechanical system. Under the constant input laser power, the effective detuning and mechanical resonant frequency can be modulated by the CK nonlinearity, which results in an optimal CK coupling strength for cooling. Similarly, there will be an optimal input laser power for cooling when the CK coupling strength stays fixed. Our scheme can be extended to break the dark mode effect of multiple degenerate mechanical modes by introducing more than one CK effects. To fulfill the requirement of the simultaneous ground-state cooling of N multiple degenerate mechanical modes N-1 CK effects with different strengths are needed. Our proposal provides new insights in dark mode control and might pave the way to manipulating of multiple quantum states in macroscopic system.
翻訳日:2023-01-30 09:34:33 公開日:2022-08-20
# 特異数によるシュミットランク2多部ゲートの分類

Classification of Schmidt-rank-two multipartite unitary gates by singular number ( http://arxiv.org/abs/2208.09604v1 )

ライセンス: Link先を確認
Yi Shen and Lin Chen and Li Yu(参考訳) 多部ユニタリゲートは、任意の分割にわたる積ユニタリ作用素でなければ真と呼ばれる。 シュミットランク2の真の多成分ユニタリゲートの分類を,マルチキュービットシナリオに着目して主に検討する。 シュミット階数 2 の真の多部形(二部形を除く)ユニタリゲートに対して、シュミット分解が一意であることは本質的な事実である。 この事実に基づいて、関連するユニタリゲートを分類するために特異数と呼ばれる鍵概念を提案する。 特異数はシュミット分解における局所特異作用素の数として定義される。 次に特異数の正確な範囲を決定する。 各特異数に対して、局所同値の下で、真の多ビットユニタリゲートのパラメトリックシュミット分解を定式化する。 最後に,対角的ユニタリゲートとシュミットランク2ユニタリゲートの密接な関係から,この研究を3キュービット対角的ユニタリゲートに拡張する。 まず、schmidtランク2の典型的な例について論じる。そのうちの1つは基本的な3量子ユニタリゲート、すなわちcczゲートである。 次に、2より大きいシュミットの対角ユニタリゲートを特徴づける。 3ビットの対角ゲートは、シュミット階が少なくとも3つであることを示し、シュミット階が3つであるような統一ゲートに必要な条件を示す。 これは真の3ビットの対角ゲートを全て特徴づける。

The multipartite unitary gates are called genuine if they are not product unitary operators across any bipartition. We mainly investigate the classification of genuine multipartite unitary gates of Schmidt rank two, by focusing on the multiqubit scenario. For genuine multipartite (excluding bipartite) unitary gates of Schmidt rank two, there is an essential fact that their Schmidt decompositions are unique. Based on this fact, we propose a key notion named as singular number to classify the unitary gates concerned. The singular number is defined as the number of local singular operators in the Schmidt decomposition. We then determine the accurate range of singular number. For each singular number, we formulate the parametric Schmidt decompositions of genuine multiqubit unitary gates under local equivalence. Finally, we extend the study to three-qubit diagonal unitary gates due to the close relation between diagonal unitary gates and Schmidt-rank-two unitaries. We start with discussing two typical examples of Schmidt rank two, one of which is a fundamental three-qubit unitary gate, i.e., the CCZ gate. Then we characterize the diagonal unitary gates of Schmidt rank greater than two. We show that a three-qubit diagonal unitary gate has Schmidt rank at most three, and present a necessary and sufficient condition for such a unitary gate of Schmidt rank three. This completes the characterization of all genuine three-qubit diagonal unitary gates.
翻訳日:2023-01-30 09:34:15 公開日:2022-08-20
# モデルフリー非定常RL:準最適レグレットとマルチエージェントRLおよびインベントリ制御への応用

Model-Free Non-Stationary RL: Near-Optimal Regret and Applications in Multi-Agent RL and Inventory Control ( http://arxiv.org/abs/2010.03161v4 )

ライセンス: Link先を確認
Weichao Mao, Kaiqing Zhang, Ruihao Zhu, David Simchi-Levi, Tamer Ba\c{s}ar(参考訳) 非定常マルコフ決定過程におけるモデルフリー強化学習(rl)を考える。 報酬関数と状態遷移関数の両方は、累積変動が特定の変動予算を超えない限り、時間とともに任意に変化することが許される。 本研究では,非定常rlのためのモデルフリーなアルゴリズムであるuper confidence bounds (restartq-ucb) を用いたq-learningの再開を提案する。 具体的には、freedman型のボーナス項を持つrelayq-ucbは$\widetilde{o}(s^{\frac{1}{3}} a^{\frac{1}{3}} \delta^{\frac{1}{3}} h t^{\frac{2}{3}})$であり、ここで$s$と$a$は状態とアクションの数であり、$\delta>0$は変動予算、$h$はエピソードごとの時間ステップの数、$t$は時間ステップの総数である。 さらに、変動予算の事前知識を必要としないDouble-Restart Q-UCBというパラメータフリーアルゴリズムを提案する。 我々のアルゴリズムは、非定常rlにおける最初の下界である$\omega(s^{\frac{1}{3}} a^{\frac{1}{3}} \delta^{\frac{1}{3}} h^{\frac{2}{3}} t^{\frac{2}{3}} t^{\frac{2}{3}})$という情報理論上の下界を確立することによって、 \emph{nearly optimal} であることが示されている。 数値実験は、累積報酬と計算効率の両方の観点からRestartQ-UCBの利点を検証する。 我々は,マルチエージェントrlと関連製品間の在庫管理の例で,結果のパワーを実証する。

We consider model-free reinforcement learning (RL) in non-stationary Markov decision processes. Both the reward functions and the state transition functions are allowed to vary arbitrarily over time as long as their cumulative variations do not exceed certain variation budgets. We propose Restarted Q-Learning with Upper Confidence Bounds (RestartQ-UCB), the first model-free algorithm for non-stationary RL, and show that it outperforms existing solutions in terms of dynamic regret. Specifically, RestartQ-UCB with Freedman-type bonus terms achieves a dynamic regret bound of $\widetilde{O}(S^{\frac{1}{3}} A^{\frac{1}{3}} \Delta^{\frac{1}{3}} H T^{\frac{2}{3}})$, where $S$ and $A$ are the numbers of states and actions, respectively, $\Delta>0$ is the variation budget, $H$ is the number of time steps per episode, and $T$ is the total number of time steps. We further present a parameter-free algorithm named Double-Restart Q-UCB that does not require prior knowledge of the variation budget. We show that our algorithms are \emph{nearly optimal} by establishing an information-theoretical lower bound of $\Omega(S^{\frac{1}{3}} A^{\frac{1}{3}} \Delta^{\frac{1}{3}} H^{\frac{2}{3}} T^{\frac{2}{3}})$, the first lower bound in non-stationary RL. Numerical experiments validate the advantages of RestartQ-UCB in terms of both cumulative rewards and computational efficiency. We demonstrate the power of our results in examples of multi-agent RL and inventory control across related products.
翻訳日:2022-10-09 21:53:48 公開日:2022-08-20
# Data Centred Intelligent Geosciences: Research Agenda and Opportunities, Position Paper

Data Centred Intelligent Geosciences: Research Agenda and Opportunities, Position Paper ( http://arxiv.org/abs/2209.02384v1 )

ライセンス: Link先を確認
Aderson Farias do Nascimento, Martin A. Musicante, Umberto Souza da Costa, Bruno M. Carvalho, Marcus Alexandre Nunes, and Genoveva Vargas-Solar(参考訳) 本稿では,データ中心の地学知識(データ,実験,モデル,方法,結論,解釈)を計算するための,ベストプラクティスと新たな方法の開発と推論のビジョンについて述べる。 この知識は、統計モデリング、機械学習、およびジオデータ収集に現代的なデータ分析手法を適用することによって生み出される。 問題は、モデル構築、モデルのアセスメント、予測、予測ワークフローにおけるオープンな方法論的な問題に対処する。

This paper describes and discusses our vision to develop and reason about best practices and novel ways of curating data-centric geosciences knowledge (data, experiments, models, methods, conclusions, and interpretations). This knowledge is produced from applying statistical modelling, Machine Learning, and modern data analytics methods on geo-data collections. The problems address open methodological questions in model building, models' assessment, prediction, and forecasting workflows.
翻訳日:2022-09-11 13:19:54 公開日:2022-08-20
# Quo Vadis: コンテキストおよび行動的マルウェア表現に基づくハイブリッド機械学習メタモデル

Quo Vadis: Hybrid Machine Learning Meta-Model based on Contextual and Behavioral Malware Representations ( http://arxiv.org/abs/2208.12248v1 )

ライセンス: Link先を確認
Dmitrijs Trizna(参考訳) 本論文では,windows portableのコンテキスト特性と動作特性を解析する複数のディープラーニングモデルを同時に活用し,メタモデルからの決定に基づいて最終予測を行うハイブリッド機械学習アーキテクチャを提案する。 現代の機械学習windowsマルウェア分類器における検出ヒューリスティックは、大量のサンプルに対して仮想化による動的解析が難しいため、通常、サンプルの静的特性に基づいている。 この制限を超えるために、我々は、時間的および計算コストを最小限に抑えながら、大規模なコーパスにわたる行動パターンの取得を可能にするWindowsカーネルエミュレーションを採用している。 当社はセキュリティベンダと提携して,現在の脅威の風景に類似した,実行時の生のpeファイルとアプリケーションのファイルパスを含む,10万以上のint-the-wildサンプルを収集しています。 取得したデータセットは、行動マルウェア分析に関する報告よりも少なくとも10倍大きい。 トレーニングデータセットのファイルは、手動および自動化リバースエンジニアリングツールを使用して、プロフェッショナルな脅威インテリジェンスチームによってラベル付けされる。 訓練セットの取得から3ヵ月後のサンプルテストセットを収集し,ハイブリッド分類器の運用効率を推定した。 我々は,現在の最先端モデル,特に低い偽陽性条件下で検出速度が向上したことを報告する。 さらに、検証やテストセットにおける悪意のあるアクティビティを識別するメタモデルの能力を明らかにする。 メタモデルは異なる分析手法によって生成された表現の組み合わせから悪意のあるサンプルに典型的なパターンを学習できると結論づける。 我々は,事前学習したモデルとエミュレーションレポートの匿名化データセットを公開する。

We propose a hybrid machine learning architecture that simultaneously employs multiple deep learning models analyzing contextual and behavioral characteristics of Windows portable executable, producing a final prediction based on a decision from the meta-model. The detection heuristic in contemporary machine learning Windows malware classifiers is typically based on the static properties of the sample since dynamic analysis through virtualization is challenging for vast quantities of samples. To surpass this limitation, we employ a Windows kernel emulation that allows the acquisition of behavioral patterns across large corpora with minimal temporal and computational costs. We partner with a security vendor for a collection of more than 100k int-the-wild samples that resemble the contemporary threat landscape, containing raw PE files and filepaths of applications at the moment of execution. The acquired dataset is at least ten folds larger than reported in related works on behavioral malware analysis. Files in the training dataset are labeled by a professional threat intelligence team, utilizing manual and automated reverse engineering tools. We estimate the hybrid classifier's operational utility by collecting an out-of-sample test set three months later from the acquisition of the training set. We report an improved detection rate, above the capabilities of the current state-of-the-art model, especially under low false-positive requirements. Additionally, we uncover a meta-model's ability to identify malicious activity in validation and test sets even if none of the individual models express enough confidence to mark the sample as malevolent. We conclude that the meta-model can learn patterns typical to malicious samples from representation combinations produced by different analysis techniques. We publicly release pre-trained models and anonymized dataset of emulation reports.
翻訳日:2022-08-28 22:12:36 公開日:2022-08-20
# 新しいトランスフォーマーモデルと2億7000万ワードの古典アラビア語多言語コーパスを用いたロバストなアラビア文字認識のためのエンドツーエンドOCRフレームワーク

An End-to-End OCR Framework for Robust Arabic-Handwriting Recognition using a Novel Transformers-based Model and an Innovative 270 Million-Words Multi-Font Corpus of Classical Arabic with Diacritics ( http://arxiv.org/abs/2208.11484v1 )

ライセンス: Link先を確認
Aly Mostafa, Omar Mohamed, Ali Ashraf, Ahmed Elbehery, Salma Jamal, Anas Salah, Amr S. Ghoneim(参考訳) この研究は、アラビア歴史文書の光学文字認識(OCR)を開発し、異なるモデリング手順が問題とどのように相互作用するかを調査する一連の研究の第2段階である。 最初の研究は、トランスフォーマーが私たちのカスタム構築したアラビアデータセットに与える影響を研究した。 最初の研究の欠点の1つはトレーニングデータのサイズであり、リソース不足のため、3000万枚の画像からたった15000枚の画像しか得られなかった。 また,画像強調レイヤ,時間と空間の最適化,補正後のレイヤを追加して,正しい文脈に対する正しい単語の予測を支援する。 特に,視覚変換器をエンコーダ,つまりBEIT,バニラ変換器をデコーダとし,特徴抽出のためのCNNを排除し,モデルの複雑さを低減したエンドツーエンドテキスト認識手法を提案する。 実験の結果、私たちのエンドツーエンドモデルは、Convolutions Backboneよりも優れています。 CERは4.46%に達した。

This research is the second phase in a series of investigations on developing an Optical Character Recognition (OCR) of Arabic historical documents and examining how different modeling procedures interact with the problem. The first research studied the effect of Transformers on our custom-built Arabic dataset. One of the downsides of the first research was the size of the training data, a mere 15000 images from our 30 million images, due to lack of resources. Also, we add an image enhancement layer, time and space optimization, and Post-Correction layer to aid the model in predicting the correct word for the correct context. Notably, we propose an end-to-end text recognition approach using Vision Transformers as an encoder, namely BEIT, and vanilla Transformer as a decoder, eliminating CNNs for feature extraction and reducing the model's complexity. The experiments show that our end-to-end model outperforms Convolutions Backbones. The model attained a CER of 4.46%.
翻訳日:2022-08-25 12:06:39 公開日:2022-08-20
# 外乱発生による外乱検知器の評価

Evaluating Out-of-Distribution Detectors Through Adversarial Generation of Outliers ( http://arxiv.org/abs/2208.10940v1 )

ライセンス: Link先を確認
Sangwoong Yoon, Jinwon Choi, Yonghyeon Lee, Yung-Kyun Noh, Frank Chongwoo Park(参考訳) 信頼性の高い評価手法はロバストアウトオブディストリビューション(ood)検出器の構築に不可欠である。 OOD検出器の現在のロバスト性評価プロトコルは、外乱データに摂動を注入することに依存している。 しかし、摂動はデータの内容と自然に起こる可能性は低く、ロバスト性の限定的な評価を提供する。 本稿では,OOD検出器のより現実的な変動モード下でのロバスト性を調べるための新しいプロトコルである,OOD検出器の評価・生成手法を提案する。 EvGは生成モデルを用いて可塑性アウトリールを合成し、MCMCサンプリングを用いて、検出器によって最も信頼度の高い非分布として分類されたアウトリールを発見する。 evgを用いた最先端ood検出器の性能を総合ベンチマークで比較し,これまで見過ごされていた弱点を明らかにする。

A reliable evaluation method is essential for building a robust out-of-distribution (OOD) detector. Current robustness evaluation protocols for OOD detectors rely on injecting perturbations to outlier data. However, the perturbations are unlikely to occur naturally or not relevant to the content of data, providing a limited assessment of robustness. In this paper, we propose Evaluation-via-Generation for OOD detectors (EvG), a new protocol for investigating the robustness of OOD detectors under more realistic modes of variation in outliers. EvG utilizes a generative model to synthesize plausible outliers, and employs MCMC sampling to find outliers misclassified as in-distribution with the highest confidence by a detector. We perform a comprehensive benchmark comparison of the performance of state-of-the-art OOD detectors using EvG, uncovering previously overlooked weaknesses.
翻訳日:2022-08-24 14:01:34 公開日:2022-08-20
# エネルギーシステムにおける連合学習の展望

A Review of Federated Learning in Energy Systems ( http://arxiv.org/abs/2208.10941v1 )

ライセンス: Link先を確認
Xu Cheng, Chendan Li, Xiufeng Liu(参考訳) データプライバシとオーナシップに対する懸念が高まる中、近年は機械学習(ML)のパラダイムシフトが観測されている。 新たなパラダイムである連合学習(federated learning, fl)が注目を集め、機械学習実装の新しい設計となった。 FLは、中央サーバの協調の下でデータサイロにおけるMLモデルのトレーニングを可能にし、通信オーバーヘッドをなくし、生データを共有しない。 本稿では,FLパラダイムのレビューを行い,特に,タイプ,ネットワーク構造,グローバルモデル集約手法を比較した。 次に、エネルギー領域におけるFLアプリケーションの包括的なレビューを行った(この論文のスマートグリッドを参照)。 本稿では,需要応答,識別,予測,フェデレーション最適化など,さまざまなエネルギー関連問題に対処するためのFLのセマンティック分類を提案する。 本稿では, エネルギーシステムモデリングや設計, プライバシ, 進化など, エネルギー情報応用における課題, 機会, 限界など, 様々な側面の議論から, 分類学を詳細に記述し, 結論づける。

With increasing concerns for data privacy and ownership, recent years have witnessed a paradigm shift in machine learning (ML). An emerging paradigm, federated learning (FL), has gained great attention and has become a novel design for machine learning implementations. FL enables the ML model training at data silos under the coordination of a central server, eliminating communication overhead and without sharing raw data. In this paper, we conduct a review of the FL paradigm and, in particular, compare the types, the network structures, and the global model aggregation methods. Then, we conducted a comprehensive review of FL applications in the energy domain (refer to the smart grid in this paper). We provide a thematic classification of FL to address a variety of energy-related problems, including demand response, identification, prediction, and federated optimizations. We describe the taxonomy in detail and conclude with a discussion of various aspects, including challenges, opportunities, and limitations in its energy informatics applications, such as energy system modeling and design, privacy, and evolution.
翻訳日:2022-08-24 14:01:21 公開日:2022-08-20
# 機械学習によるクレジットカード詐欺検出の課題と複雑さ

Challenges and Complexities in Machine Learning based Credit Card Fraud Detection ( http://arxiv.org/abs/2208.10943v1 )

ライセンス: Link先を確認
Gayan K. Kulatilleke(参考訳) クレジットカードは近代経済において爆発的な役割を担っている。 その人気と普遍性は、クロスボーダーのリーチと即時の確認によって支援され、詐欺の豊かな基盤を生み出した。 取引が増えている一方で、詐欺率は上昇し、ドル詐欺の真のコストも上昇している。 取引量、詐欺の独自性、詐欺師の巧妙さは詐欺を検知する上で大きな課題である。 機械学習、人工知能、ビッグデータの出現により、詐欺と戦うための新しいツールが開かれた。 過去のトランザクションを考慮に入れれば、機械学習アルゴリズムは、最高の人間研究者を上回る、リアルタイムで不正を識別するために、無限に複雑な特性を'学習'する能力を持つ。 しかし,不正検出アルゴリズムの開発は,不正データの非バランス性,ベンチマークや標準評価指標の欠如による優れた分類器の同定,研究結果の共有と開示の欠如,研究用秘密取引データへのアクセスの難しさなど,困難かつ遅かった。 本研究は, 典型的に不均衡な不正データ集合の特性, 利用可能性, 研究用途に適した性質について検討し, 詐欺分布の多様性について検討した。 さらに,人間のアノテーションエラーが機械分類エラーとどのように結合するかを示す。 また,分類器のアルゴリズム性能に対するPCA難読化(研究用および機械学習用機密トランザクションデータを拡散する手段として)の効果を判定する実験を行い,PCAは性能を著しく低下させるものではないが,過度な適合を避けるために適切な原理成分サイズ(次元)を使用する必要があることを示した。

Credit cards play an exploding role in modern economies. Its popularity and ubiquity have created a fertile ground for fraud, assisted by the cross boarder reach and instantaneous confirmation. While transactions are growing, the fraud percentages are also on the rise as well as the true cost of a dollar fraud. Volume of transactions, uniqueness of frauds and ingenuity of the fraudster are main challenges in detecting frauds. The advent of machine learning, artificial intelligence and big data has opened up new tools in the fight against frauds. Given past transactions, a machine learning algorithm has the ability to 'learn' infinitely complex characteristics in order to identify frauds in real-time, surpassing the best human investigators. However, the developments in fraud detection algorithms has been challenging and slow due the massively unbalanced nature of fraud data, absence of benchmarks and standard evaluation metrics to identify better performing classifiers, lack of sharing and disclosure of research findings and the difficulties in getting access to confidential transaction data for research. This work investigates the properties of typical massively imbalanced fraud data sets, their availability, suitability for research use while exploring the widely varying nature of fraud distributions. Furthermore, we show how human annotation errors compound with machine classification errors. We also carry out experiments to determine the effect of PCA obfuscation (as a means of disseminating sensitive transaction data for research and machine learning) on algorithmic performance of classifiers and show that while PCA does not significantly degrade performance, care should be taken to use the appropriate principle component size (dimensions) to avoid overfitting.
翻訳日:2022-08-24 14:01:04 公開日:2022-08-20
# 微分プライバシーのためのサドルポイント会計士

The Saddle-Point Accountant for Differential Privacy ( http://arxiv.org/abs/2208.09595v1 )

ライセンス: Link先を確認
Wael Alghamdi, Shahab Asoodeh, Flavio P. Calmon, Juan Felipe Gomez, Oliver Kosut, Lalitha Sankar, Fei Wei(参考訳) サドルポイント会計士(SPA)と呼ばれる新たな差分プライバシー会計士を導入する。 SPAはDP機構の構成に関するプライバシー保証を正確かつ迅速に近似する。 本手法は,統計学におけるユビキタスな数値手法であるsaddle-point法に着想を得たものである。 SPAで提供される近似誤差の上限と下限を導出することにより、厳密な性能保証を実現する。 SPAのくちばしは、DP機構に対応するプライバシー損失確率変数を指数関数的に傾けることによって導出される中心極限定理と大偏差法の組み合わせである。 SPAの重要な利点の1つは、プライバシメカニズムの$n$-foldコンポジションに対して一定の時間で実行されることである。 数値実験により、SPAはより高速な実行で最先端の会計手法に匹敵する精度を達成できることが示された。

We introduce a new differential privacy (DP) accountant called the saddle-point accountant (SPA). SPA approximates privacy guarantees for the composition of DP mechanisms in an accurate and fast manner. Our approach is inspired by the saddle-point method -- a ubiquitous numerical technique in statistics. We prove rigorous performance guarantees by deriving upper and lower bounds for the approximation error offered by SPA. The crux of SPA is a combination of large-deviation methods with central limit theorems, which we derive via exponentially tilting the privacy loss random variables corresponding to the DP mechanisms. One key advantage of SPA is that it runs in constant time for the $n$-fold composition of a privacy mechanism. Numerical experiments demonstrate that SPA achieves comparable accuracy to state-of-the-art accounting methods with a faster runtime.
翻訳日:2022-08-23 14:44:55 公開日:2022-08-20
# クロス集中サンプリングによるマトリックスコンプリート:ブリッジング一様サンプリングとCURサンプリング

Matrix Completion with Cross-Concentrated Sampling: Bridging Uniform Sampling and CUR Sampling ( http://arxiv.org/abs/2208.09723v1 )

ライセンス: Link先を確認
HanQin Cai, Longxiu Huang, Pengyu Li, Deanna Needell(参考訳) 均一サンプリングは行列補完文献において広く研究されているが、CURサンプリングは行と列のサンプルを通して低ランク行列を近似する。 残念ながら、両方のサンプリングモデルには、現実世界のアプリケーションにおける様々な状況に対する柔軟性がない。 本研究では,新しい,実装容易なサンプリング戦略であるクロス集中サンプリング(ccs)を提案する。 均一サンプリングとCURサンプリングをブリッジすることで、CCSはアプリケーションのサンプリングコストを削減できる柔軟性を提供する。 さらに, CCS ベースの行列補完に十分な条件を提供する。 さらに,提案したCSモデルに対して,ICURC(Iterative CUR Completion)と呼ばれる高効率な非凸アルゴリズムを提案する。 シミュレーション実験により,CCS と ICURC の合成および実世界のデータセットにおける一様サンプリングとそのベースラインアルゴリズムに対する経験的優位性を検証した。

While uniform sampling has been widely studied in the matrix completion literature, CUR sampling approximates a low-rank matrix via row and column samples. Unfortunately, both sampling models lack flexibility for various circumstances in real-world applications. In this work, we propose a novel and easy-to-implement sampling strategy, coined Cross-Concentrated Sampling (CCS). By bridging uniform sampling and CUR sampling, CCS provides extra flexibility that can potentially save sampling costs in applications. In addition, we also provide a sufficient condition for CCS-based matrix completion. Moreover, we propose a highly efficient non-convex algorithm, termed Iterative CUR Completion (ICURC), for the proposed CCS model. Numerical experiments verify the empirical advantages of CCS and ICURC against uniform sampling and its baseline algorithms, on both synthetic and real-world datasets.
翻訳日:2022-08-23 14:39:13 公開日:2022-08-20
# マイクロチャネルヒートシンク最適化のための機械学習に基づく代理モデル

Machine learning based surrogate models for microchannel heat sink optimization ( http://arxiv.org/abs/2208.09683v1 )

ライセンス: Link先を確認
Ante Sikirica, Luka Grb\v{c}i\'c, Lado Kranj\v{c}evi\'c(参考訳) 本稿では, 二次チャネルとリブを用いたマイクロチャネル設計を計算流体力学を用いて検討し, 多目的最適化アルゴリズムと組み合わせて, 観測熱抵抗とポンプパワーに基づいて最適解を導出する。 ハイパーキューブサンプリング,機械学習に基づくサロゲートモデリング,多目的最適化を組み合わせたワークフローを提案する。 最良サロゲート探索において, ランダム林, 勾配促進アルゴリズム, ニューラルネットワークが検討された。 我々は、チューニングニューラルネットワークが正確な予測を行い、許容可能な代理モデルを作成することができることを示した。 最適化された解は、従来の最適化手法と比較して、全体的な性能に無視できる違いを示す。 さらに、解は元の時間の5分の1で計算される。 生成した設計は、対流マイクロチャネル設計と同じ圧力限界の下で10%以上低い温度に達する。 温度によって制限されると、圧力降下は25%以上減少する。 最後に, 各設計変数が耐熱性およびポンプパワーに及ぼす影響について, シャプリー加水分解法を用いて検討した。 全体として,提案フレームワークにはメリットがあり,マイクロチャネルヒートシンク設計最適化において有効な方法論として利用できることを示す。

In this paper, microchannel designs with secondary channels and with ribs are investigated using computational fluid dynamics and are coupled with a multi-objective optimization algorithm to determine and propose optimal solutions based on observed thermal resistance and pumping power. A workflow that combines Latin hypercube sampling, machine learning-based surrogate modeling and multi-objective optimization is proposed. Random forests, gradient boosting algorithms and neural networks were considered during the search for the best surrogate. We demonstrated that tuned neural networks can make accurate predictions and be used to create an acceptable surrogate model. Optimized solutions show a negligible difference in overall performance when compared to the conventional optimization approach. Additionally, solutions are calculated in one-fifth of the original time. Generated designs attain temperatures that are lower by more than 10% under the same pressure limits as a convectional microchannel design. When limited by temperature, pressure drops are reduced by more than 25%. Finally, the influence of each design variable on the thermal resistance and pumping power was investigated by employing the SHapley Additive exPlanations technique. Overall, we have demonstrated that the proposed framework has merit and can be used as a viable methodology in microchannel heat sink design optimization.
翻訳日:2022-08-23 14:29:48 公開日:2022-08-20
# CICIDS-2017データセット上でのバーチクラスタリングによるマルチ層パーセプトロン(MLP)に基づくネットワーク異常検出の改善

Improving Multilayer-Perceptron(MLP)-based Network Anomaly Detection with Birch Clustering on CICIDS-2017 Dataset ( http://arxiv.org/abs/2208.09711v1 )

ライセンス: Link先を確認
Yuhua Yin, Julian Jang-Jaccard, Fariza Sabrina, Jin Kwak(参考訳) 機械学習アルゴリズムは多層パーセプトロン(MLP)を含む侵入検知システムで広く使われている。 本研究では,birchクラスタリングアルゴリズムとmlp分類器を組み合わせた2段階モデルを提案する。 提案手法では,まず,教師なしクラスタリングアルゴリズムとしてBirchやKmeansをCICIDS-2017データセットに適用し,データの事前グループ化を行う。 生成された擬似ラベルは、mlpベースの分類器のトレーニングに追加機能として追加される。 実験の結果,データプリグループ化にbirchとk-meansクラスタリングを用いることで侵入検知システムの性能が向上することがわかった。 本手法はbirchクラスタリングを用いて99.73%の精度を実現し,スタンドアロンmlpモデルを用いた同様の研究よりも優れている。

Machine learning algorithms have been widely used in intrusion detection systems, including Multi-layer Perceptron (MLP). In this study, we proposed a two-stage model that combines the Birch clustering algorithm and MLP classifier to improve the performance of network anomaly multi-classification. In our proposed method, we first apply Birch or Kmeans as an unsupervised clustering algorithm to the CICIDS-2017 dataset to pre-group the data. The generated pseudo-label is then added as an additional feature to the training of the MLP-based classifier. The experimental results show that using Birch and K-Means clustering for data pre-grouping can improve intrusion detection system performance. Our method can achieve 99.73% accuracy in multi-classification using Birch clustering, which is better than similar researches using a stand-alone MLP model.
翻訳日:2022-08-23 14:29:31 公開日:2022-08-20
# 非凸最適化におけるロバスト性と防衛計画への応用

On Robustness in Nonconvex Optimization with Application to Defense Planning ( http://arxiv.org/abs/2208.09725v1 )

ライセンス: Link先を確認
Johannes O. Royset(参考訳) 構造化非凸最適化(structured nonconvex optimization)の文脈では,パラメータ摂動に頑健な決定に対する最小値の増加を,名目問題の値と比較して推定する。 この推定は、非凸ロバスト最適化における部分次数とmin値関数の局所リプシッツモジュラーの詳細な表現に依存し、名目問題の解のみを必要とする。 理論的結果は、混合整数最適化モデルを含む軍事作戦研究の例によって示される。 調査した54例中、最小値の増加を推定する中央値誤差は12%である。 したがって,非凸最適化におけるコスト効率,パラメータ・ロバスト決定の可能性をアナリストに正確に知らせることができる。

In the context of structured nonconvex optimization, we estimate the increase in minimum value for a decision that is robust to parameter perturbations as compared to the value of a nominal problem. The estimates rely on detailed expressions for subgradients and local Lipschitz moduli of min-value functions in nonconvex robust optimization and require only the solution of the nominal problem. The theoretical results are illustrated by examples from military operations research involving mixed-integer optimization models. Across 54 cases examined, the median error in estimating the increase in minimum value is 12%. Therefore, the derived expressions for subgradients and local Lipschitz moduli may accurately inform analysts about the possibility of obtaining cost-effective, parameter-robust decisions in nonconvex optimization.
翻訳日:2022-08-23 14:29:15 公開日:2022-08-20
# 総合型ゲームにおける準最適$\Phi$-regret学習

Near-Optimal $\Phi$-Regret Learning in Extensive-Form Games ( http://arxiv.org/abs/2208.09747v1 )

ライセンス: Link先を確認
Ioannis Anagnostides, Gabriele Farina, Tuomas Sandholm(参考訳) 本稿では,マルチプレイヤーの完全リコール不完全情報広義ゲームにおいて,各プレイヤーの「emph{trigger regret}」が,プレイの繰り返し後に$O(\log T)$として成長するように,効率的で非結合な学習ダイナミクスを確立する。 これは、以前のよく知られた$O(T^{1/4})$よりも指数関数的に改善し、Bai et al. (2022) による最近の開問題に解決する。 即ち、ほぼ最適に近いレートで \emph{extensive-form correlationd equilibria} と \emph{coarse correlationd equilibria} の組への収束を、$\frac{\log t}{t}$ で保証する。 先行研究に基づいて、我々の構成の核心にあるより一般的な結果として、不動点に関するより一般的な結果が、 \emph{polynomial degree} を持つ有理関数から導かれる、すなわち、 \emph{(coarse) トリガー偏差関数の不動点に対して確立される性質である。 さらに, 先行保証とは異なり, syrgkanis らによって導入された \emph{rvu property} (nips, 2015) を保存した凸包の洗練された \textit{regret circuit} を活用する。

In this paper, we establish efficient and uncoupled learning dynamics so that, when employed by all players in multiplayer perfect-recall imperfect-information extensive-form games, the \emph{trigger regret} of each player grows as $O(\log T)$ after $T$ repetitions of play. This improves exponentially over the prior best known trigger-regret bound of $O(T^{1/4})$, and settles a recent open question by Bai et al. (2022). As an immediate consequence, we guarantee convergence to the set of \emph{extensive-form correlated equilibria} and \emph{coarse correlated equilibria} at a near-optimal rate of $\frac{\log T}{T}$. Building on prior work, at the heart of our construction lies a more general result regarding fixed points deriving from rational functions with \emph{polynomial degree}, a property that we establish for the fixed points of \emph{(coarse) trigger deviation functions}. Moreover, our construction leverages a refined \textit{regret circuit} for the convex hull, which -- unlike prior guarantees -- preserves the \emph{RVU property} introduced by Syrgkanis et al. (NIPS, 2015); this observation has an independent interest in establishing near-optimal regret under learning dynamics based on a CFR-type decomposition of the regret.
翻訳日:2022-08-23 14:29:03 公開日:2022-08-20
# FLIS:非IIDデータ分布の推論類似性によるクラスタ化フェデレーション学習

FLIS: Clustered Federated Learning via Inference Similarity for Non-IID Data Distribution ( http://arxiv.org/abs/2208.09754v1 )

ライセンス: Link先を確認
Mahdi Morafah, Saeed Vahidian, Weijia Wang, and Bill Lin(参考訳) 古典的なフェデレーション学習アプローチは、参加者の非IIDデータ分布の存在下で大きなパフォーマンス劣化をもたらす。 各ローカルデータセットの分布がグローバルデータセットと大きく異なる場合、各クライアントのローカル目的は、ローカル更新のドリフトを引き起こすグローバルオプティマと矛盾する。 この現象はクライアントのパフォーマンスに大きな影響を与えます。 これは、顧客が連合学習に参加する主な動機は、より良いパーソナライズされたモデルを得ることである。 上記の問題に対処するため,クライアントモデルの推論類似性を利用して,クラスタ内のクライアント集団を協調訓練可能なデータ分布でグループ化する新しいアルゴリズムFLISを提案する。 このフレームワークは、異なるユーザグループが独自の目標(学習タスク)を持っているが、同じクラスタ内の他のメンバ(同じ学習タスク)とデータを集約することで、より効率的でパーソナライズされた連合学習を実現する。 CIFAR-100/10, SVHN, FMNISTデータセット上の最先端ベンチマークに対するFLISの利点を示す実験結果を示す。 私たちのコードはhttps://github.com/mmorafah/flisで利用可能です。

Classical federated learning approaches yield significant performance degradation in the presence of Non-IID data distributions of participants. When the distribution of each local dataset is highly different from the global one, the local objective of each client will be inconsistent with the global optima which incur a drift in the local updates. This phenomenon highly impacts the performance of clients. This is while the primary incentive for clients to participate in federated learning is to obtain better personalized models. To address the above-mentioned issue, we present a new algorithm, FLIS, which groups the clients population in clusters with jointly trainable data distributions by leveraging the inference similarity of clients' models. This framework captures settings where different groups of users have their own objectives (learning tasks) but by aggregating their data with others in the same cluster (same learning task) to perform more efficient and personalized federated learning. We present experimental results to demonstrate the benefits of FLIS over the state-of-the-art benchmarks on CIFAR-100/10, SVHN, and FMNIST datasets. Our code is available at https://github.com/MMorafah/FLIS.
翻訳日:2022-08-23 14:28:31 公開日:2022-08-20
# TopoDiff: トポロジー最適化のための性能と制約誘導拡散モデル

TopoDiff: A Performance and Constraint-Guided Diffusion Model for Topology Optimization ( http://arxiv.org/abs/2208.09591v1 )

ライセンス: Link先を確認
Fran\c{c}ois Maz\'e, Faez Ahmed(参考訳) 機械性能を最大化する最適物理構造を見つけることを目的とした構造トポロジー最適化は、航空宇宙、機械、土木工学における工学設計の応用において不可欠である。 GAN(Generative Adversarial Network)は、最近、従来の反復的トポロジー最適化手法の代替として人気がある。 しかし、これらのモデルは訓練が困難であり、一般化性が制限されており、最適なトポロジーを模倣すること、製造性を無視すること、機械的なコンプライアンスのような性能上の目標を模倣することが目的である。 TopoDiffは条件付き拡散モデルに基づくアーキテクチャで,これらの問題を克服する性能認識および製造可能性認識トポロジー最適化を実現する。 本モデルでは,低いコンプライアンスと優れた製造性を持つ構造を積極的に推奨する代理モデルに基づくガイダンス戦略を導入する。 本手法は,物理性能の平均誤差を8倍に減らし,11倍の非実用性サンプルを生成することにより,最先端の条件付きGANを著しく向上させる。 トポロジー最適化に拡散モデルを導入することにより,条件拡散モデルは工学的設計合成アプリケーションにおいてganよりも優れることを示した。 また,拡散モデルと外部性能と制約対応ガイダンスを用いた工学最適化のための一般的なフレームワークを提案する。

Structural topology optimization, which aims to find the optimal physical structure that maximizes mechanical performance, is vital in engineering design applications in aerospace, mechanical, and civil engineering. Generative adversarial networks (GANs) have recently emerged as a popular alternative to traditional iterative topology optimization methods. However, these models are often difficult to train, have limited generalizability, and due to their goal of mimicking optimal topologies, neglect manufacturability and performance objectives like mechanical compliance. We propose TopoDiff, a conditional diffusion-model-based architecture to perform performance-aware and manufacturability-aware topology optimization that overcomes these issues. Our model introduces a surrogate model-based guidance strategy that actively favors structures with low compliance and good manufacturability. Our method significantly outperforms a state-of-art conditional GAN by reducing the average error on physical performance by a factor of eight and by producing 11 times fewer infeasible samples. By introducing diffusion models to topology optimization, we show that conditional diffusion models have the ability to outperform GANs in engineering design synthesis applications too. Our work also suggests a general framework for engineering optimization problems using diffusion models and external performance and constraint-aware guidance.
翻訳日:2022-08-23 14:23:32 公開日:2022-08-20
# ディープハイブリッドニューラルネットワーク特徴抽出器を用いた転送可能クロストカマク破壊予測

Transferable Cross-Tokamak Disruption Prediction with Deep Hybrid Neural Network Feature Extractor ( http://arxiv.org/abs/2208.09594v1 )

ライセンス: Link先を確認
Wei Zheng, Fengming Xue, Ming Zhang, Zhongyong Chen, Chengshuo Shen, Xinkun Ai, Nengchao Wang, Dalong Chen, Bihao Guo, Yonghua Ding, Zhipeng Chen, Zhoujun Yang, Biao Shen, Bingjia Xiao, Yuan Pan(参考訳) 異なるトカマクの破壊を予測することは、克服すべき大きな障害です。 将来のトカマクは高性能放電時の破壊をほとんど許容できない。 高性能なディスラプション放電は、豊富なトレーニングセットを構成することがほとんどなく、現在のデータ駆動方式が許容できる結果を得るのが困難である。 一つのトカマクで訓練されたディスラプション予測モデルを他のトカマクに転送可能な機械学習方法が必要となる。 キーは、トカマク診断データにおける共通のディスラプション前駆体トレースを抽出可能な特徴抽出器と、転送可能なディスラプション分類器を含むディスラプション予測モデルである。 本論文はまず, トカマクの一般的な診断から破壊前駆体の特徴を抽出するための深部融合特徴抽出装置について, 現在知られている破壊前駆体に基づいて提案し, 転送可能なモデルの基礎となる。 融合特徴抽出器はj-textの手動特徴抽出と比較することにより証明される。 J-TEXTで訓練した特徴抽出器に基づいて, 破壊予測モデルをEAST実験から20回の放電でEASTデータに転送した。 性能はEASTからの1896年の排出で訓練されたモデルに匹敵する。 他のモデルトレーニングシナリオの比較から、トランスファー学習は、さまざまなトカマクの混乱を予測する可能性を示した。

Predicting disruptions across different tokamaks is a great obstacle to overcome. Future tokamaks can hardly tolerate disruptions at high performance discharge. Few disruption discharges at high performance can hardly compose an abundant training set, which makes it difficult for current data-driven methods to obtain an acceptable result. A machine learning method capable of transferring a disruption prediction model trained on one tokamak to another is required to solve the problem. The key is a disruption prediction model containing a feature extractor that is able to extract common disruption precursor traces in tokamak diagnostic data, and a transferable disruption classifier. Based on the concerns above, the paper first presents a deep fusion feature extractor designed specifically for extracting disruption precursor features from common diagnostics on tokamaks according to currently known precursors of disruption, providing a promising foundation for transferable models. The fusion feature extractor is proved by comparing with manual feature extraction on J-TEXT. Based on the feature extractor trained on J-TEXT, the disruption prediction model was transferred to EAST data with mere 20 discharges from EAST experiment. The performance is comparable with a model trained with 1896 discharges from EAST. From the comparison among other model training scenarios, transfer learning showed its potential in predicting disruptions across different tokamaks.
翻訳日:2022-08-23 14:23:10 公開日:2022-08-20
# ソースコードテスト可能性予測のためのアンサンブルメタ推定器

An ensemble meta-estimator to predict source code testability ( http://arxiv.org/abs/2208.09614v1 )

ライセンス: Link先を確認
Morteza Zakeri-Nasrabadi and Saeed Parsa(参考訳) テスト中のソフトウェアがテストできない場合、ソフトウェアテストは長くてコストがかかるプロセスになり得る。 リファクタリングテクニックは、テスト容易性に影響を与えるソフトウェアメトリクスを改善することで、テスト容易性を高める可能性がある。 メトリクスは、ソースコードで計算されたメトリクスとそのテスト容易性との関係を学習する回帰モデルを構築しながら決定される。 テスト容易性予測モデルを解釈しながら、テスト容易性に影響を与える15のソフトウェアメトリクスを特定しました。 42のjavaクラスによる実験によると、これらの15のメトリクスを改善するリファクタリングは、他の品質特性の改善に加えて、平均15.57%のテスト容易性を向上できる。 テスト容易性予測モデルは、テスト可能なソフトウェアの2つの重要な要素として、ソースコードのメトリクスをテスト有効性と効率にマッピングするように訓練されています。 テストスイートによって得られるカバレッジが増加すると、テストの有効性が向上する。 一方、テストスイートのサイズが大きくなるにつれて、テスト効率が低下する。 この記事では、テストスイートのサイズとカバレッジの観点からクラステスト可能性を計算する数学的モデルを提供します。 この数学的モデルを用いて、テスト可能性予測モデルのターゲットとしてテスト可能性を計算する。 数学モデルはテストカバレッジを計算するためにテスト中のクラスの実行を必要としますが、回帰モデルはテスト容易性を静的に測定します。 テスト容易性の観点からのテスト結果の予測は、不要なコストを避けるためにテストに先行すべきである。 私たちのテスト容易性予測モデルは、23,886のJavaクラスと262のソフトウェアメトリクスでトレーニングされ、テストされています。 学習したモデルは、r2が 0.68、平均二乗誤差が 0.03 でテスト可能性を予測する。

Software testing could be a lengthy and costly process, especially if the software under test is not testable. Refactoring techniques may enhance testability by improving the software metrics affecting testability. The metrics are determined while building regression models learning how to relate metrics computed for a source code to its testability. We identified 15 software metrics highly affecting testability while interpreting our testability prediction model. Our experiments with 42 java classes reveal that refactorings that improve these 15 metrics could enhance testability by an average of 15.57%, besides improving some other quality attributes. Our testability prediction model is trained to map source code metrics to test effectiveness and efficiency as two significant ingredients of testable software. Test effectiveness improves as the coverage gained by the test suite increases. On the other hand, the test efficiency reduces as the size of the test suite increases. This article offers a mathematical model to compute class testability in terms of the size and coverage of the test suite. We use this mathematical model to compute testability as the target of our testability prediction model. The mathematical model requires the execution of the class under test to compute test coverage, while our regression model measures testability statically. Prediction of test results in terms of testability should precede the test to avoid unnecessary costs. Our testability prediction model has been trained and tested on 23,886 Java classes and 262 software metrics. The learned model predicts testability with an R2 of 0.68 and a mean squared error of 0.03.
翻訳日:2022-08-23 14:22:48 公開日:2022-08-20
# テストの有効性を予測するための学習

Learning to predict test effectiveness ( http://arxiv.org/abs/2208.09623v1 )

ライセンス: Link先を確認
Morteza Zakeri-Nasrabadi and Saeed Parsa(参考訳) テスト対象のコード固有の特徴としてのカバレッジが予測可能であるため、テストの高コストを劇的に削減することができる。 この記事では、カバレッジ(coverability)と呼ばれる新しいメトリクスの観点で、テストがクラスをカバーできる範囲を予測するための機械学習モデルを提供します。 予測モデルは4つの回帰モデルの集合からなる。 学習サンプルは機能ベクトルで構成されており、そこでは、クラスのために計算されたソースコードメトリクスである。 サンプルは、対応するクラスで計算されたカバレッジ値によってラベル付けされる。 各クラスで自動生成されるテストスイートのサイズとカバレッジの観点から,テストの有効性を評価する数学的モデルを提供する。 既存のソースコードメトリクスの観点からサブメトリックを定義する新しいアプローチを導入することで、機能領域のサイズを拡張します。 学習した予測モデルにおける特徴重要度分析を用いて、ソースコードのメトリクスをテストの有効性に影響を及ぼす順に分類する。 その結果,最も影響力のあるソースコードメトリクスとして,厳密な循環的複雑性が得られた。 約23,000のクラスを含むJavaプロジェクトの大規模なコーパスにおける予測モデルによる実験では、0.032の平均絶対誤差(MAE)、0.004の平均平方誤差(MSE)、0.855のR2スコアが示されている。 最先端のカバレッジ予測モデルと比較して,我々のモデルはMAE,MSE,R2スコアをそれぞれ5.78%,2.84%,20.71%改善した。

The high cost of the test can be dramatically reduced, provided that the coverability as an inherent feature of the code under test is predictable. This article offers a machine learning model to predict the extent to which the test could cover a class in terms of a new metric called Coverageability. The prediction model consists of an ensemble of four regression models. The learning samples consist of feature vectors, where features are source code metrics computed for a class. The samples are labeled by the Coverageability values computed for their corresponding classes. We offer a mathematical model to evaluate test effectiveness in terms of size and coverage of the test suite generated automatically for each class. We extend the size of the feature space by introducing a new approach to defining sub-metrics in terms of existing source code metrics. Using feature importance analysis on the learned prediction models, we sort source code metrics in the order of their impact on the test effectiveness. As a result of which, we found the class strict cyclomatic complexity as the most influential source code metric. Our experiments with the prediction models on a large corpus of Java projects containing about 23,000 classes demonstrate the Mean Absolute Error (MAE) of 0.032, Mean Squared Error (MSE) of 0.004, and an R2-score of 0.855. Compared with the state-of-the-art coverage prediction models, our models improve MAE, MSE, and an R2-score by 5.78%, 2.84%, and 20.71%, respectively.
翻訳日:2022-08-23 14:22:27 公開日:2022-08-20
# アップデートルールの変更なしにAdamが収束できる

Adam Can Converge Without Any Modification on Update Rules ( http://arxiv.org/abs/2208.09632v1 )

ライセンス: Link先を確認
Yushun Zhang, Congliang Chen, Naichen Shi, Ruoyu Sun, Zhi-Quan Luo(参考訳) ReddiらがAdamの分岐問題を指摘して以来、多くの新しい変種が収束を得るために設計されている。 しかし、バニラ・アダムは依然として非常に人気があり、実際はうまく機能している。 なぜ理論と実践の間にギャップがあるのか? Reddi et al. 2018 では、Adam のハイパーパラメータ、すなわち $(\beta_1, \beta_2)$ を選択した後に問題を選択するが、実際的なアプリケーションは、まず問題を修正し、次に $(\beta_1, \beta_2)$ をチューニングする。 この観察により、経験的収束は、問題の選択順序とハイパーパラメータを変更する場合に限り、理論的に正当化できると推測する。 この研究で、我々はこの予想を裏付ける。 我々は、$\beta_2$ が大きいとき、$\beta_1 < \sqrt{\beta_2}<1$ が臨界点の近傍に収束することを証明している。 近傍の大きさは、確率勾配の分散に対して命題的である。 余分な条件(強い成長条件)の下で、アダムは臨界点に収束する。 これはディープラーニングライブラリのデフォルト設定である$\beta_1=0.9$を含む任意の$\beta_1 \in [0,1)$をカバーします。 この結果から,Adamは更新ルールを変更することなく,広い範囲のハイパーパラメータに収束できることがわかった。 我々の知る限り、我々は有界勾配のような強い仮定なしでこの結果を初めて証明した。 $\beta_2$ が小さければ、Adam が無限大に発散できる $(\beta_1,\beta_2)$ の大きな領域も指摘する。 我々の発散結果は収束結果と同じ設定を考慮し、$\beta_2$ のときに発散から収束への相転移を示す。 これらの正と負の結果は、adamハイパーパラメータのチューニング方法を提案できる。

Ever since Reddi et al. 2018 pointed out the divergence issue of Adam, many new variants have been designed to obtain convergence. However, vanilla Adam remains exceptionally popular and it works well in practice. Why is there a gap between theory and practice? We point out there is a mismatch between the settings of theory and practice: Reddi et al. 2018 pick the problem after picking the hyperparameters of Adam, i.e., $(\beta_1, \beta_2)$; while practical applications often fix the problem first and then tune $(\beta_1, \beta_2)$. Due to this observation, we conjecture that the empirical convergence can be theoretically justified, only if we change the order of picking the problem and hyperparameter. In this work, we confirm this conjecture. We prove that, when $\beta_2$ is large and $\beta_1 < \sqrt{\beta_2}<1$, Adam converges to the neighborhood of critical points. The size of the neighborhood is propositional to the variance of stochastic gradients. Under an extra condition (strong growth condition), Adam converges to critical points. As $\beta_2$ increases, our convergence result can cover any $\beta_1 \in [0,1)$ including $\beta_1=0.9$, which is the default setting in deep learning libraries. Our result shows that Adam can converge under a wide range of hyperparameters without any modification on its update rules. To our knowledge, we are the first to prove this result without strong assumptions such as bounded gradients. When $\beta_2$ is small, we further point out a large region of $(\beta_1,\beta_2)$ where Adam can diverge to infinity. Our divergence result considers the same setting as our convergence result, indicating a phase transition from divergence to convergence when increasing $\beta_2$. These positive and negative results can provide suggestions on how to tune Adam hyperparameters.
翻訳日:2022-08-23 14:22:05 公開日:2022-08-20
# いくつかの説明可能なクラスタリング問題の計算複雑性

The computational complexity of some explainable clustering problems ( http://arxiv.org/abs/2208.09643v1 )

ライセンス: Link先を確認
Eduardo Sany Laber(参考訳) 我々は, [dasgupta et al., icml 2020] によって提案された枠組みにおける説明可能なクラスタリング問題の計算複雑性について検討した。 我々は、k$-means, $k$-medians, $k$-centers and the spacing cost functionを考える。 最初の3つは最適化が困難であり、後者は多項式時間で最適化可能であることが証明される。

We study the computational complexity of some explainable clustering problems in the framework proposed by [Dasgupta et al., ICML 2020], where explainability is achieved via axis-aligned decision trees. We consider the $k$-means, $k$-medians, $k$-centers and the spacing cost functions. We prove that the first three are hard to optimize while the latter can be optimized in polynomial time.
翻訳日:2022-08-23 14:21:29 公開日:2022-08-20
# ts2netパッケージによるRの時系列からネットワークへ

From Time Series to Networks in R with the ts2net Package ( http://arxiv.org/abs/2208.09660v1 )

ライセンス: Link先を確認
Leonardo N. Ferreira(参考訳) ネットワーク科学は、時系列や複雑なシステムをモデリングするための重要なツールとして確立した。 このモデリングプロセスは、集合または単一の時系列をネットワークに変換することによって構成される。 ノードは完全な時系列、セグメント、または単一の値を表し、リンクは表現された部分間の関連や類似を定義する。 Rはデータサイエンス、統計学、機械学習で使われる主要なプログラミング言語の1つで、多くのパッケージが利用可能である。 しかし、時系列をネットワークに変換するために必要な方法を提供する単一のパッケージは存在しない。 本稿では1つまたは複数の時系列をネットワークにモデル化するRパッケージts2netを提案する。 このパッケージは、並列およびスーパーコンピュータで容易に計算できる時系列距離関数を提供し、より大きなデータセットと、距離行列をネットワークに変換する方法を処理する。 ts2netはまた、再帰ネットワーク、可視性グラフ、遷移ネットワークなどの単一の時系列をネットワークに変換する方法を提供する。 他のパッケージとともに、ts2netはネットワーク科学とグラフマイニングツールを使用して時系列から情報を抽出することができる。

Network science established itself as a prominent tool for modeling time series and complex systems. This modeling process consists of transforming a set or a single time series into a network. Nodes may represent complete time series, segments, or single values, while links define associations or similarities between the represented parts. R is one of the main programming languages used in data science, statistics, and machine learning, with many packages available. However, no single package provides the necessary methods to transform time series into networks. This paper presents ts2net, an R package for modeling one or multiple time series into networks. The package provides the time series distance functions that can be easily computed in parallel and in supercomputers to process larger data sets and methods to transform distance matrices into networks. Ts2net also provides methods to transform a single time series into a network, such as recurrence networks, visibility graphs, and transition networks. Together with other packages, ts2net permits using network science and graph mining tools to extract information from time series.
翻訳日:2022-08-23 14:21:22 公開日:2022-08-20
# 設計原理を要約するニューラルアーキテクチャ空間の視覚的解析

Visual Analysis of Neural Architecture Spaces for Summarizing Design Principles ( http://arxiv.org/abs/2208.09665v1 )

ライセンス: Link先を確認
Jun Yuan, Mengchen Liu, Fengyuan Tian, and Shixia Liu(参考訳) 人工知能の最近の進歩は、より優れたニューラルネットワークアーキテクチャの恩恵を受けている。 これらのアーキテクチャは、試行錯誤のコストのかかるプロセスの産物です。 このプロセスを容易にするために,ニューラルネットワーク空間を理解し,設計原則を要約する視覚解析手法であるArchExplorerを開発した。 この手法の背後にある重要なアイデアは、アーキテクチャ間の構造的距離を利用して、アーキテクチャ空間を説明可能にすることである。 対距離計算を全ペア最短経路問題の解として定式化する。 効率を改善するために,この問題を単一ソースの短経路問題に分解する。 時間複雑性は O(kn^2N) から O(knN) に減少する。 アーキテクチャは、それらの間の距離に応じて階層的にクラスタ化されます。 クラスタ間のグローバルな関係と各クラスタ内のアーキテクチャの局所的近傍の両方を伝達するために,サークルパッキングに基づくアーキテクチャ視覚化が開発された。 設計原則を要約し,優れたアーキテクチャを選択する上でArchExplorerの有効性を示すために,2つのケーススタディとポストアナリシスが提示される。

Recent advances in artificial intelligence largely benefit from better neural network architectures. These architectures are a product of a costly process of trial-and-error. To ease this process, we develop ArchExplorer, a visual analysis method for understanding a neural architecture space and summarizing design principles. The key idea behind our method is to make the architecture space explainable by exploiting structural distances between architectures. We formulate the pairwise distance calculation as solving an all-pairs shortest path problem. To improve efficiency, we decompose this problem into a set of single-source shortest path problems. The time complexity is reduced from O(kn^2N) to O(knN). Architectures are hierarchically clustered according to the distances between them. A circle-packing-based architecture visualization has been developed to convey both the global relationships between clusters and local neighborhoods of the architectures in each cluster. Two case studies and a post-analysis are presented to demonstrate the effectiveness of ArchExplorer in summarizing design principles and selecting better-performing architectures.
翻訳日:2022-08-23 14:21:06 公開日:2022-08-20
# 完全自動エンド・ツー・エンドフェイク音声検出

Fully Automated End-to-End Fake Audio Detection ( http://arxiv.org/abs/2208.09618v1 )

ライセンス: Link先を確認
Chenglong Wang, Jiangyan Yi, Jianhua Tao, Haiyang Sun, Xun Chen, Zhengkun Tian, Haoxin Ma, Cunhang Fan, Ruibo Fu(参考訳) 既存の偽音声検出システムは、しばしば、音響的特徴を設計したり、ネットワーク構造のハイパーパラメータを手動で設計する専門家の経験に依存している。 しかし、パラメータの人工的な調整は、結果に比較的明らかな影響を及ぼす。 最適なパラメータセットを手動で設定することはほとんど不可能です。 そこで本研究では,完全自動エンドツーエンド音声検出手法を提案する。 まずwav2vec事前学習モデルを用いて音声の高レベル表現を得る。 さらに,ネットワーク構造に対しては,Light-DARTS という異種アーキテクチャ検索 (DARTS) の修正版を用いる。 畳み込み操作と残差ブロックからなる複雑な神経構造を自動学習し最適化しながら、深い音声表現を学習する。 ASVspoof 2019 LAデータセットの実験結果から,提案システムは1.08%の誤差率(EER)を達成し,最先端の単一システムを上回る結果を得た。

The existing fake audio detection systems often rely on expert experience to design the acoustic features or manually design the hyperparameters of the network structure. However, artificial adjustment of the parameters can have a relatively obvious influence on the results. It is almost impossible to manually set the best set of parameters. Therefore this paper proposes a fully automated end-toend fake audio detection method. We first use wav2vec pre-trained model to obtain a high-level representation of the speech. Furthermore, for the network structure, we use a modified version of the differentiable architecture search (DARTS) named light-DARTS. It learns deep speech representations while automatically learning and optimizing complex neural structures consisting of convolutional operations and residual blocks. The experimental results on the ASVspoof 2019 LA dataset show that our proposed system achieves an equal error rate (EER) of 1.08%, which outperforms the state-of-the-art single system.
翻訳日:2022-08-23 14:16:53 公開日:2022-08-20
# フェイクオーディオのVocoderフィンガープリント検出のための初期検討

An Initial Investigation for Detecting Vocoder Fingerprints of Fake Audio ( http://arxiv.org/abs/2208.09646v1 )

ライセンス: Link先を確認
Xinrui Yan, Jiangyan Yi, Jianhua Tao, Chenglong Wang, Haoxin Ma, Tao Wang, Shiming Wang, Ruibo Fu(参考訳) 偽音声検出には多くの効果的な試みがなされている。 しかし、検出結果しか提供できないが、この害を抑える対策はない。 多くの関連応用において、偽音声を生成するモデルやアルゴリズムも必要である。 そこで本研究では,偽音声のボコーダ指紋を検出する新しい問題を提案する。 8つの最先端ボコーダによって合成されたデータセットについて実験を行った。 機能とモデルアーキテクチャを事前に検討しました。 t-sneの可視化は、異なるvocoderが異なるvocoderの指紋を生成することを示している。

Many effective attempts have been made for fake audio detection. However, they can only provide detection results but no countermeasures to curb this harm. For many related practical applications, what model or algorithm generated the fake audio also is needed. Therefore, We propose a new problem for detecting vocoder fingerprints of fake audio. Experiments are conducted on the datasets synthesized by eight state-of-the-art vocoders. We have preliminarily explored the features and model architectures. The t-SNE visualization shows that different vocoders generate distinct vocoder fingerprints.
翻訳日:2022-08-23 14:16:39 公開日:2022-08-20
# ランダム化特異値分解への接続によるスケッチ・アンド・プロジェクト法のシャープ解析

Sharp Analysis of Sketch-and-Project Methods via a Connection to Randomized Singular Value Decomposition ( http://arxiv.org/abs/2208.09585v1 )

ライセンス: Link先を確認
Micha{\l} Derezi\'nski, Elizaveta Rebrova(参考訳) sketch-and-project(スケッチ・アンド・プロジェクト)は、線形システムとその変種を解決する多くの既知の反復的手法と、非線形最適化問題のさらなる拡張を統合するフレームワークである。 ランダム化kaczmarz、座標降下、凸最適化におけるニュートン法の変種など、一般的な方法を含んでいる。 本稿では,期待される投影行列に対する新しい密接なスペクトル境界により,スケッチ・アンド・プロジェクション法の収束率を鋭く保証する。 我々の推定では、スケッチ・アンド・プロジェクト収束率と、QRやSVDなどの一般的な行列因数分解を高速化するためにスケッチを用いた他のよく知られた、一見無関係なアルゴリズムの近似誤差との関連性を明らかにする。 この接続により、スケッチ・アンド・プロジェクト・ソルバのパフォーマンスがそのスケッチサイズに依存するかを正確に定量化できます。 本解析はガウシアンおよびサブガウシアンのスケッチ行列だけでなく,less embeddeds として知られる効率的なスパーススケッチ手法のファミリーを網羅する。 我々の実験は理論を裏付け、非常にスパースなスケッチでさえ実際に同じ収束特性を示すことを示した。

Sketch-and-project is a framework which unifies many known iterative methods for solving linear systems and their variants, as well as further extensions to non-linear optimization problems. It includes popular methods such as randomized Kaczmarz, coordinate descent, variants of the Newton method in convex optimization, and others. In this paper, we obtain sharp guarantees for the convergence rate of sketch-and-project methods via new tight spectral bounds for the expected sketched projection matrix. Our estimates reveal a connection between the sketch-and-project convergence rate and the approximation error of another well-known but seemingly unrelated family of algorithms, which use sketching to accelerate popular matrix factorizations such as QR and SVD. This connection brings us closer to precisely quantifying how the performance of sketch-and-project solvers depends on their sketch size. Our analysis covers not only Gaussian and sub-gaussian sketching matrices, but also a family of efficient sparse sketching methods known as LESS embeddings. Our experiments back up the theory and demonstrate that even extremely sparse sketches show the same convergence properties in practice.
翻訳日:2022-08-23 14:15:32 公開日:2022-08-20
# 中世イルミネーションの階層分類作成のためのビジュアル分析フレームワーク

A Visual Analytics Framework for Composing a Hierarchical Classification for Medieval Illuminations ( http://arxiv.org/abs/2208.09657v1 )

ライセンス: Link先を確認
Christofer Meinecke, Estelle Gu\'eville, David Joseph Wrisley and Stefan J\"anicke(参考訳) アノテーション付きデータは教師付き機械学習手法を適用するための要件であり、アノテーションの品質が結果に不可欠である。 特に、不確実性の多様体を持つ文化遺産のコレクションを扱う場合、注釈はドメインの専門家が行うべき手作業であり、厳しい作業である。 本研究は,未完成で,学術的・言語学的相違に基づく相反するメタデータを網羅した,すでに注釈付き中世写本の2セットから始まった。 本研究の目的は,(1)複合データセットのための記述ラベルの統一セットを作成し,(2)教師付き機械学習のための有用な入力として使用できる高品質の階層分類を行うことである。 これらの目標を達成するために、中世主義者がこれらのデータセットを記述するのに使われる語彙を組み合わせ、規則化し、拡張できるビジュアル分析システムを開発した。 単語と画像の埋め込みのためのビジュアルインターフェースとデータセット間のアノテーションの共起により、同時に複数の画像に注釈を付けることができ、アノテーションラベル候補を推奨し、ラベルの階層的な分類をサポートする。 システム自体も,中世のフィードバックに基づいて視覚表現を更新する半教師付き手法を実装しており,一連の利用シナリオでは,対象とするコミュニティにとっての価値を文書化している。

Annotated data is a requirement for applying supervised machine learning methods, and the quality of annotations is crucial for the result. Especially when working with cultural heritage collections that inhere a manifold of uncertainties, annotating data remains a manual, arduous task to be carried out by domain experts. Our project started with two already annotated sets of medieval manuscript images which however were incomplete and comprised conflicting metadata based on scholarly and linguistic differences. Our aims were to create (1) a uniform set of descriptive labels for the combined data set, and (2) a hierarchical classification of a high quality that can be used as a valuable input for supervised machine learning. To reach these goals, we developed a visual analytics system to enable medievalists to combine, regularize and extend the vocabulary used to describe these data sets. Visual interfaces for word and image embeddings as well as co-occurrences of the annotations across the data sets enable annotating multiple images at the same time, recommend annotation label candidates and support composing a hierarchical classification of labels. Our system itself implements a semi-supervised method as it updates visual representations based on the medievalists' feedback, and a series of usage scenarios document its value for the target community.
翻訳日:2022-08-23 14:12:46 公開日:2022-08-20
# 光深度推定のためのサブピクセル差分分布の学習

Learning Sub-Pixel Disparity Distribution for Light Field Depth Estimation ( http://arxiv.org/abs/2208.09688v1 )

ライセンス: Link先を確認
Wentao Chao, Xuechun Wang, Yingqian Wang, Liang Chang, Fuqing Duan(参考訳) 既存の光場(LF)深度推定法は一般的に、奥行き推定を回帰問題とみなす。 しかし、不等式写像は不等式分布の部分空間射影(すなわち期待)のみであり、後者はモデルが学習する上でより重要である。 本稿では,ディープネットワークのパワーを十分に活用して,サブピクセルの差分布を学習する簡易かつ効果的な手法を提案する。 本手法では,サブピクセルレベルでのコストボリュームを構築し,より微細な深度分布を生成し,不確実性を考慮した焦点損失を設計し,その差分分布を基底部に近いものに監視する。 本手法の有効性を実験的に検証した。 本手法は,hci 4d lfベンチマークにおいて提出された99のアルゴリズムのうち,5つの精度指標(badpix0.01,badpix0.03,badpix0.07,mse,q25)で第1位をランク付けし,oacc-net や attmlfnet などの最新のlf深度法を有意に上回っている。 コードとモデルはhttps://github.com/chaowentao/subfocalで入手できる。

Existing light field (LF) depth estimation methods generally consider depth estimation as a regression problem, supervised by a pixel-wise L1 loss between the regressed disparity map and the groundtruth one. However, the disparity map is only a sub-space projection (i.e., an expectation) of the disparity distribution, while the latter one is more essential for models to learn. In this paper, we propose a simple yet effective method to learn the sub-pixel disparity distribution by fully utilizing the power of deep networks. In our method, we construct the cost volume at sub-pixel level to produce a finer depth distribution and design an uncertainty-aware focal loss to supervise the disparity distribution to be close to the groundtruth one. Extensive experimental results demonstrate the effectiveness of our method. Our method, called SubFocal, ranks the first place among 99 submitted algorithms on the HCI 4D LF Benchmark in terms of all the five accuracy metrics (i.e., BadPix0.01, BadPix0.03, BadPix0.07, MSE and Q25), and significantly outperforms recent state-of-the-art LF depth methods such as OACC-Net and AttMLFNet. Code and model are available at https://github.com/chaowentao/SubFocal.
翻訳日:2022-08-23 14:12:25 公開日:2022-08-20
# PARSE Challenge 2022: Swin U-Net Transformer(Swin UNETR)とU-Netを用いた肺動脈セグメンテーション

PARSE challenge 2022: Pulmonary Arteries Segmentation using Swin U-Net Transformer(Swin UNETR) and U-Net ( http://arxiv.org/abs/2208.09636v1 )

ライセンス: Link先を確認
Akansh Maurya, Kunal Dashrath Patil, Rohan Padhy, Kalluri Ramakrishna and Ganapathy Krishnamurthi(参考訳) 本研究では,Swin UNETR と U-Net-based Deep Neural Network Architecture を用いて肺動脈をCTスキャンから抽出する手法を提案する。 6モデル, スウィンunetrをベースとする3モデル, 残留単位を持つ3次元u-netをベースとする3モデル, 重み付け平均を用いて最終セグメンテーションマスクを作製した。 私たちのチームはこの方法でマルチレベルダイススコア84.36パーセントを達成した。 私たちの作業のコードは以下のリンクで公開されている。 この作業はMICCAI PARSE 2022チャレンジの一部である。

In this work, we present our proposed method to segment the pulmonary arteries from the CT scans using Swin UNETR and U-Net-based deep neural network architecture. Six models, three models based on Swin UNETR, and three models based on 3D U-net with residual units were ensemble using a weighted average to make the final segmentation masks. Our team achieved a multi-level dice score of 84.36 percent through this method. The code of our work is available on the following link: https://github.com/akansh12/parse2022. This work is part of the MICCAI PARSE 2022 challenge.
翻訳日:2022-08-23 14:03:14 公開日:2022-08-20
# MDPに関する計算: グラディエントとしてのポテンシャル形成

Calculus on MDPs: Potential Shaping as a Gradient ( http://arxiv.org/abs/2208.09570v1 )

ライセンス: Link先を確認
Erik Jenner, Herke van Hoof, Adam Gleave(参考訳) 強化学習では、異なる報酬関数は、彼らが誘導する最適ポリシーの観点で等価である。 特によく知られた重要な例は、任意の遷移ダイナミクスの下で最適なポリシーセットを変更することなく、任意の報酬関数に追加できる関数のクラスであるポテンシャルシェーピングである。 ポテンシャル整形は、数学や物理学におけるポテンシャル、保守的ベクトル場、ゲージ変換と概念的に似ているが、この関係は以前は公式には研究されていない。 我々はマルコフ決定過程を抽象化するグラフ上の離散計算の形式論を開発し、この枠組み内の勾配として形式的に形式化できる可能性を示す。 これにより Ng et al. (1999) から、常に最適なポリシーを維持する唯一の付加的な報酬変換であるような条件を記述する結果を強化することができる。 形式化の付加的な応用として、各潜在シェーピング同値クラスから1つのユニークな報酬関数を選択するルールを定義します。

In reinforcement learning, different reward functions can be equivalent in terms of the optimal policies they induce. A particularly well-known and important example is potential shaping, a class of functions that can be added to any reward function without changing the optimal policy set under arbitrary transition dynamics. Potential shaping is conceptually similar to potentials, conservative vector fields and gauge transformations in math and physics, but this connection has not previously been formally explored. We develop a formalism for discrete calculus on graphs that abstract a Markov Decision Process, and show how potential shaping can be formally interpreted as a gradient within this framework. This allows us to strengthen results from Ng et al. (1999) describing conditions under which potential shaping is the only additive reward transformation to always preserve optimal policies. As an additional application of our formalism, we define a rule for picking a single unique reward function from each potential shaping equivalence class.
翻訳日:2022-08-23 13:48:38 公開日:2022-08-20
# 最大要素間間隔基準に基づく新しいスパースアレイ設計に関する研究

Study of Novel Sparse Array Design Based on the Maximum Inter-Element Spacing Criterion ( http://arxiv.org/abs/2208.09574v1 )

ライセンス: Link先を確認
W. Shi, Y. Li and R. C. de Lamare(参考訳) 新しいスパースアレイ(SA)構造は、最大要素間間隔(IES)制約(MISC)に基づいて提案される。 従来のMISCアレーと比較して、改良MISC(IMISC)と呼ばれるSA構成は、一様自由度(uDOF)を著しく増加させ、相互結合を減少させた。 特に、imiscアレイは6つの一様線形配列(ula)で構成されており、これは ies 集合によって決定できる。 IESセットは、最大IESとセンサー数という2つのパラメータによって制約される。 IMISCアレイのuDOFを導出し、IMISCアレイの重み関数も解析する。 提案したIMISCアレイは既存のSAに対して uDOF の点で大きな利点があり、相互結合は低いレベルにとどまっている。 IMISCアレイの利点を実証するためにシミュレーションを行った。

A novel sparse array (SA) structure is proposed based on the maximum inter-element spacing (IES) constraint (MISC) criterion. Compared with the traditional MISC array, the proposed SA configurations, termed as improved MISC (IMISC) has significantly increased uniform degrees of freedom (uDOF) and reduced mutual coupling. In particular, the IMISC arrays are composed of six uniform linear arrays (ULAs), which can be determined by an IES set. The IES set is constrained by two parameters, namely the maximum IES and the number of sensors. The uDOF of the IMISC arrays is derived and the weight function of the IMISC arrays is analyzed as well. The proposed IMISC arrays have a great advantage in terms of uDOF against the existing SAs, while their mutual coupling remains at a low level. Simulations are carried out to demonstrate the advantages of the IMISC arrays.
翻訳日:2022-08-23 13:48:22 公開日:2022-08-20
# マッチを探す: e-learningプラットフォームにおける自動疑似マッチングのための自己教師付きクラスタリング

Looking For A Match: Self-supervised Clustering For Automatic Doubt Matching In e-learning Platforms ( http://arxiv.org/abs/2208.09600v1 )

ライセンス: Link先を確認
Vedant Sandeep Joshi and Sivanagaraja Tatinati and Yubo Wang(参考訳) 近年、E-ラーニングプラットフォームは、学生が疑念を投稿し(スマートフォンのスナップとして)数分で解決できる場所として成長している。 しかし,これらのプラットフォームにおける質のばらつきが著しい学生投稿疑念の増大は,教師のナビゲーションの課題を提示するだけでなく,疑念ごとの解決時間も増大させる。 高い疑念の解決時間が生徒の進歩を妨げるため、どちらも受け入れられない。 これは、リポジトリに類似した疑念があるかどうかを自動的に識別し、それを教師に提供し、生徒と検証し、コミュニケーションするためのもっともらしいソリューションである。 教師付き学習技術(シームズ建築のような)は、ラベルが不足し高価であるため、マッチを特定するためにラベルを必要とする。 そこで本研究では,自己指導技術を用いて学習した表現に基づいて,ラベルに依存しない疑似マッチングパラダイムを開発した。 BYOL(bootstrap your own latent space)の以前の理論的洞察に基づいて、適切な構築されたデータビューのさまざまなセットに対して、ドメイン固有の拡張と対照的な目的を組み合わせたカスタムBYOLを提案する。 その結果、カスタムbyolは、byolと教師付き学習インスタンスの両方と比較して、top-1マッチング精度を約6\%と5\%改善した。 さらに、BYOLベースの学習インスタンスが、人間のラベル付けよりも同等か優れていることを示す。

Recently, e-learning platforms have grown as a place where students can post doubts (as a snap taken with smart phones) and get them resolved in minutes. However, the significant increase in the number of student-posted doubts with high variance in quality on these platforms not only presents challenges for teachers' navigation to address them but also increases the resolution time per doubt. Both are not acceptable, as high doubt resolution time hinders the students learning progress. This necessitates ways to automatically identify if there exists a similar doubt in repository and then serve it to the teacher as the plausible solution to validate and communicate with the student. Supervised learning techniques (like Siamese architecture) require labels to identify the matches, which is not feasible as labels are scarce and expensive. In this work, we, thus, developed a label-agnostic doubt matching paradigm based on the representations learnt via self-supervised technique. Building on prior theoretical insights of BYOL (bootstrap your own latent space), we propose custom BYOL which combines domain-specific augmentation with contrastive objective over a varied set of appropriately constructed data views. Results highlighted that, custom BYOL improves the top-1 matching accuracy by approximately 6\% and 5\% as compared to both BYOL and supervised learning instances, respectively. We further show that both BYOL-based learning instances performs either on par or better than human labeling.
翻訳日:2022-08-23 13:48:06 公開日:2022-08-20
# 重み付き最大エントロピー逆強化学習

Weighted Maximum Entropy Inverse Reinforcement Learning ( http://arxiv.org/abs/2208.09611v1 )

ライセンス: Link先を確認
The Viet Bui, Tien Mai, Patrick Jaillet(参考訳) 逆強化学習 (IRL) と模倣学習 (IM) について検討し, 専門家の実証軌道から報酬や政策機能を回復する問題について考察した。 本稿では, 最大エントロピー枠組みに重み関数を付加し, 専門家政策の確率性(あるいは有界合理性)を学習し, 回復する能力を有することによって, 学習プロセスを改善する新しい方法を提案する。 我々のフレームワークとアルゴリズムは、報酬(あるいはポリシー)関数とマルコフ決定プロセスに追加されるエントロピー項の構造の両方を学習することができ、学習手順が強化される。 ヒトとシミュレートされた実演と離散的かつ連続的なIRL/IMタスクを用いた数値実験により,本手法が先行アルゴリズムより優れていることを示す。

We study inverse reinforcement learning (IRL) and imitation learning (IM), the problems of recovering a reward or policy function from expert's demonstrated trajectories. We propose a new way to improve the learning process by adding a weight function to the maximum entropy framework, with the motivation of having the ability to learn and recover the stochasticity (or the bounded rationality) of the expert policy. Our framework and algorithms allow to learn both a reward (or policy) function and the structure of the entropy terms added to the Markov Decision Processes, thus enhancing the learning procedure. Our numerical experiments using human and simulated demonstrations and with discrete and continuous IRL/IM tasks show that our approach outperforms prior algorithms.
翻訳日:2022-08-23 13:47:42 公開日:2022-08-20
# C$^{2}$IMUFS: 補完的・合意的学習に基づく不完全多視点特徴選択

C$^{2}$IMUFS: Complementary and Consensus Learning-based Incomplete Multi-view Unsupervised Feature Selection ( http://arxiv.org/abs/2208.09736v1 )

ライセンス: Link先を確認
Yanyong Huang, Zongxin Shen, Yuxin Cai, Xiuwen Yi, Dongjie Wang, Fengmao Lv and Tianrui Li(参考訳) マルチビュー非教師付き特徴選択 (MUFS) は、マルチビュー非ラベルデータの次元性を低減する効果的な手法として実証されている。 既存のメソッドは、すべてのビューが完了していると仮定します。 しかしながら、マルチビューデータは通常不完全であり、インスタンスの一部がいくつかのビューに表示されるが、すべてのビューではない。 さらに、既存のMUFS手法において重要な有望な技術である完全類似性グラフの学習は、欠落したビューのために達成できない。 本稿では,上記の問題に対処するために,補完的かつコンセンサスに基づく不完全多視点特徴選択法(c$^{2}$imufs)を提案する。 具体的には、C$^{2}$IMUFSは、ビューウェイト適応学習とスパース$\ell_{2,p}$-normを備えた拡張重み付き非負行列分解モデルに特徴選択を統合し、適応性と柔軟性を向上させる。 異なる視点から導かれる多重類似度行列のスパース線形結合により、相補的学習誘導類似度行列再構成モデルを提示し、各視点における完全類似度グラフを得る。 さらに、C$^{2}$IMUFSは、異なるビューにまたがるコンセンサスクラスタリング指標行列を学習し、それをスペクトルグラフ項に埋め込んで局所的な幾何学構造を保存する。 実世界のデータセットに対する総合的な実験結果は、最先端の手法と比較してC$^{2}$IMUFSの有効性を示す。

Multi-view unsupervised feature selection (MUFS) has been demonstrated as an effective technique to reduce the dimensionality of multi-view unlabeled data. The existing methods assume that all of views are complete. However, multi-view data are usually incomplete, i.e., a part of instances are presented on some views but not all views. Besides, learning the complete similarity graph, as an important promising technology in existing MUFS methods, cannot achieve due to the missing views. In this paper, we propose a complementary and consensus learning-based incomplete multi-view unsupervised feature selection method (C$^{2}$IMUFS) to address the aforementioned issues. Concretely, C$^{2}$IMUFS integrates feature selection into an extended weighted non-negative matrix factorization model equipped with adaptive learning of view-weights and a sparse $\ell_{2,p}$-norm, which can offer better adaptability and flexibility. By the sparse linear combinations of multiple similarity matrices derived from different views, a complementary learning-guided similarity matrix reconstruction model is presented to obtain the complete similarity graph in each view. Furthermore, C$^{2}$IMUFS learns a consensus clustering indicator matrix across different views and embeds it into a spectral graph term to preserve the local geometric structure. Comprehensive experimental results on real-world datasets demonstrate the effectiveness of C$^{2}$IMUFS compared with state-of-the-art methods.
翻訳日:2022-08-23 13:47:29 公開日:2022-08-20
# 生成逆ネットワークによるテキスト・画像合成のための視覚言語マッチング

Vision-Language Matching for Text-to-Image Synthesis via Generative Adversarial Networks ( http://arxiv.org/abs/2208.09596v1 )

ライセンス: Link先を確認
Qingrong Cheng, Keyu Wen, Xiaodong Gu(参考訳) テキスト間の合成は、特定のテキスト記述から写真リアリスティックでセマンティックな一貫性のある画像を生成することを目的としている。 市販のモデルで合成された画像は、対応する画像やテキスト記述に比べて限られたコンポーネントを含んでおり、画像品質とテキストと視覚の一貫性が低下する。 本稿では,テキスト対画像合成のための新たな視覚言語マッチング戦略であるvlmgan*を提案する。 デュアルビジョン言語マッチング機構は、生成した画像と対応するテキスト記述とのテキスト-視覚的マッチングと、合成した画像と実画像との視覚-視覚的一貫した制約を考察する。 特定のテキスト記述が与えられた後、VLMGAN*はまずそれをテキストの特徴にエンコードし、それから2つの視覚言語マッチングベースの生成モデルに供給し、フォトリアリスティックおよびテキストセマンティック一貫性のあるイメージを合成する。 さらに、合成画像の現実性と多様性を主に評価する単純な画像生成から、テキスト・画像合成のための一般的な評価指標を借用した。 そこで我々は,VLMS(Vision-Language Matching Score)と呼ばれるメトリクスを導入し,画像品質と合成画像と記述とのセマンティック一貫性を両立できるテキスト間合成の性能を評価する。 提案する2つの多レベル視覚言語マッチング戦略は、他のテキストから画像への合成法に適用できる。 これは、${\text{VLMGAN}_{+\text{AttnGAN}}}$と${\text{VLMGAN}_{+\text{DFGAN}}}$である。 広く使われている2つのデータセットの実験結果は、モデルが他の最先端の方法よりも大幅に改善されていることを示している。

Text-to-image synthesis aims to generate a photo-realistic and semantic consistent image from a specific text description. The images synthesized by off-the-shelf models usually contain limited components compared with the corresponding image and text description, which decreases the image quality and the textual-visual consistency. To address this issue, we propose a novel Vision-Language Matching strategy for text-to-image synthesis, named VLMGAN*, which introduces a dual vision-language matching mechanism to strengthen the image quality and semantic consistency. The dual vision-language matching mechanism considers textual-visual matching between the generated image and the corresponding text description, and visual-visual consistent constraints between the synthesized image and the real image. Given a specific text description, VLMGAN* firstly encodes it into textual features and then feeds them to a dual vision-language matching-based generative model to synthesize a photo-realistic and textual semantic consistent image. Besides, the popular evaluation metrics for text-to-image synthesis are borrowed from simple image generation, which mainly evaluates the reality and diversity of the synthesized images. Therefore, we introduce a metric named Vision-Language Matching Score (VLMS) to evaluate the performance of text-to-image synthesis which can consider both the image quality and the semantic consistency between synthesized image and the description. The proposed dual multi-level vision-language matching strategy can be applied to other text-to-image synthesis methods. We implement this strategy on two popular baselines, which are marked with ${\text{VLMGAN}_{+\text{AttnGAN}}}$ and ${\text{VLMGAN}_{+\text{DFGAN}}}$. The experimental results on two widely-used datasets show that the model achieves significant improvements over other state-of-the-art methods.
翻訳日:2022-08-23 13:19:19 公開日:2022-08-20
# 空間的およびスペクトル的攻撃に対する視覚トランスフォーマーの逆ロバスト性の解析

Analyzing Adversarial Robustness of Vision Transformers against Spatial and Spectral Attacks ( http://arxiv.org/abs/2208.09602v1 )

ライセンス: Link先を確認
Gihyun Kim and Jong-Seok Lee(参考訳) 視覚トランスフォーマーは画像分類タスクにおいて畳み込みニューラルネットワーク(cnns)を上回る強力なアーキテクチャとして登場した。 反逆攻撃に対するトランスフォーマーの堅牢性を理解するためにいくつかの試みがなされているが、既存の研究は矛盾する結果、すなわち、トランスフォーマーはCNNよりも堅牢である、という結論を導いている。 本稿では、トランスフォーマの逆ロバスト性を調べる既存の研究で検討されていない2つの問題に対処する。 まず, 画像品質は, 対向的堅牢性の評価において同時に考慮すべきである。 一方のアーキテクチャから他方のアーキテクチャへの堅牢性は,攻撃画像の品質によって表現される攻撃強度によって変化する。 第2に、トランスフォーマーとcnnが画像内の異なる種類の情報に依存していることを指摘することにより、フーリエアタックと呼ばれる攻撃フレームワークを、スペクトル領域だけでなく空間領域においてもイメージを攻撃できるフレキシブルアタックを実現するためのツールとして定式化する。 この攻撃は特定の周波数成分の大きさと位相情報を選択的に摂動する。 広範な実験を通じて、トランスフォーマはcnnよりも位相情報や低周波情報に依存する傾向にあり、周波数選択攻撃でさらに脆弱になることがあることがわかった。 この研究がトランスフォーマーの特性と敵の堅牢性を理解するための新たな視点を提供することを期待している。

Vision Transformers have emerged as a powerful architecture that can outperform convolutional neural networks (CNNs) in image classification tasks. Several attempts have been made to understand robustness of Transformers against adversarial attacks, but existing studies draw inconsistent results, i.e., some conclude that Transformers are more robust than CNNs, while some others find that they have similar degrees of robustness. In this paper, we address two issues unexplored in the existing studies examining adversarial robustness of Transformers. First, we argue that the image quality should be simultaneously considered in evaluating adversarial robustness. We find that the superiority of one architecture to another in terms of robustness can change depending on the attack strength expressed by the quality of the attacked images. Second, by noting that Transformers and CNNs rely on different types of information in images, we formulate an attack framework, called Fourier attack, as a tool for implementing flexible attacks, where an image can be attacked in the spectral domain as well as in the spatial domain. This attack perturbs the magnitude and phase information of particular frequency components selectively. Through extensive experiments, we find that Transformers tend to rely more on phase information and low frequency information than CNNs, and thus sometimes they are even more vulnerable under frequency-selective attacks. It is our hope that this work provides new perspectives in understanding the properties and adversarial robustness of Transformers.
翻訳日:2022-08-23 13:18:43 公開日:2022-08-20
# 逆学習とトランスフォーマーを用いたオフライン手書き数量認識

Offline Handwritten Mathematical Recognition using Adversarial Learning and Transformers ( http://arxiv.org/abs/2208.09662v1 )

ライセンス: Link先を確認
Ujjwal Thakur and Anuj Sharma(参考訳) オフライン手書き数式認識(英語版)(hmer)は、数式認識の分野で主要な分野である。 オフラインのHMERは、時間情報の欠如や書き込みスタイルの多様性のため、オンラインのHMERに比べてはるかに難しい問題と見なされることが多い。 本稿では,対向学習を用いたエンコーダ・デコーダモデルを提案する。 手書きの数学的表現画像とそのエンコーダに印刷された数学的表現から意味不変な特徴を抽出する。 DenseNetエンコーダと変換器デコーダを組み合わせた意味不変機能の学習は,従来の研究から表現率の向上に寄与した。 crohmeデータセットで評価した結果、最新のcrohme 2019テストセットをおよそ4%改善することができた。

Offline Handwritten Mathematical Expression Recognition (HMER) is a major area in the field of mathematical expression recognition. Offline HMER is often viewed as a much harder problem as compared to online HMER due to a lack of temporal information and variability in writing style. In this paper, we purpose a encoder-decoder model that uses paired adversarial learning. Semantic-invariant features are extracted from handwritten mathematical expression images and their printed mathematical expression counterpart in the encoder. Learning of semantic-invariant features combined with the DenseNet encoder and transformer decoder, helped us to improve the expression rate from previous studies. Evaluated on the CROHME dataset, we have been able to improve latest CROHME 2019 test set results by 4% approx.
翻訳日:2022-08-23 13:18:17 公開日:2022-08-20
# 画像美学の主観性をモデル化、定量化し、予測する

Modeling, Quantifying, and Predicting Subjectivity of Image Aesthetics ( http://arxiv.org/abs/2208.09666v1 )

ライセンス: Link先を確認
Hyeongnam Jang, Yeejin Lee and Jong-Seok Lee(参考訳) 画像美学の評価はコンピュータビジョンの課題である。 一つの理由は、美的嗜好が極めて主観的であり、特定の画像に対して人によって大きく異なる可能性があるからである。 したがって、そのような \textit{subjectivity} を適切にモデル化し、定量化することが重要であるが、この問題を解決する努力は多くない。 本稿では,主観論理に基づく主観的美的嗜好をモデル化し,定量化する,新しい統一確率的枠組みを提案する。 この枠組みでは、評価分布をベータ分布としてモデル化し、確実に喜ぶ可能性、確実に不幸であり、不確実である可能性を得ることができる。 主観性の直観的な計量を定義するのに不確実である確率を使う。 さらに,画像美観予測のための深層ニューラルネットワークを学習する手法を提案し,実験による主観予測の性能向上に有効であることを示した。 また,このフレームワークが審美的イメージレコメンデーションに有用なアプリケーションシナリオを提案する。

Assessing image aesthetics is a challenging computer vision task. One reason is that aesthetic preference is highly subjective and may vary significantly among people for certain images. Thus, it is important to properly model and quantify such \textit{subjectivity}, but there has not been much effort to resolve this issue. In this paper, we propose a novel unified probabilistic framework that can model and quantify subjective aesthetic preference based on the subjective logic. In this framework, the rating distribution is modeled as a beta distribution, from which the probabilities of being definitely pleasing, being definitely unpleasing, and being uncertain can be obtained. We use the probability of being uncertain to define an intuitive metric of subjectivity. Furthermore, we present a method to learn deep neural networks for prediction of image aesthetics, which is shown to be effective in improving the performance of subjectivity prediction via experiments. We also present an application scenario where the framework is beneficial for aesthetics-based image recommendation.
翻訳日:2022-08-23 13:18:06 公開日:2022-08-20
# 一般化された共塩物体検出

Generalised Co-Salient Object Detection ( http://arxiv.org/abs/2208.09668v1 )

ライセンス: Link先を確認
Jiawei Liu, Jing Zhang, Kaihao Zhang, Nick Barnes(参考訳) 従来のco-salient object detection (CoSOD) は 'enquote{a common salient object' が同じ群のすべての像に存在するという強い仮定を持つ。 しかし、偏りのある仮定は、画像群において共塩性オブジェクトが部分的にあるいは完全に欠落する実際のシナリオと矛盾する。 ランダムサンプリングに基づく一般CoSODトレーニング(Generalized CoSOD Training: GCT)戦略を提案し,コサリアントオブジェクトのイメージ間欠如の認識をCoSODモデルに再現する。 さらに、GCTに固有のランダムサンプリングプロセスにより、高品質の不確実性マップの生成が可能となり、より信頼性の低いモデル予測が、非一般的な正当性オブジェクトのローカライズに支障をきたすおそれがある。 本稿では,cosodモデルの一般化能力を評価するために,coca-commonとcoca-zeroという2つの新しいテストデータセットを提案する。 実験の結果,提案手法は2つの新しいデータセット上でのCoSODモデルの一般化能力を著しく向上するが,従来のCoSOD設定では性能に悪影響を及ぼさないことがわかった。 コードはhttps://github.com/Carlisle-Liu/GCoSOD.comで入手できる。

Conventional co-salient object detection (CoSOD) has a strong assumption that \enquote{a common salient object exists in every image of the same group}. However, the biased assumption contradicts real scenarios where co-salient objects could be partially or completely absent in a group of images. We propose a random sampling based Generalised CoSOD Training (GCT) strategy to distill the awareness of inter-image absence of co-salient object(s) into CoSOD models. In addition, the random sampling process inherent in GCT enables the generation of a high-quality uncertainty map, with which we can further remediate less confident model predictions that are prone to localising non-common salient objects. To evaluate the generalisation ability of CoSOD models, we propose two new testing datasets, namely CoCA-Common and CoCA-Zero, where a common salient object is partially present in the former and completely absent in the latter. Extensive experiments demonstrate that our proposed method significantly improves the generalisation ability of CoSOD models on the two new datasets, while not negatively impacting its performance under the conventional CoSOD setting. Codes are available at https://github.com/Carlisle-Liu/GCoSOD.
翻訳日:2022-08-23 13:17:49 公開日:2022-08-20
# 顔の感情を見つける:メタ分類器

Finding Emotions in Faces: A Meta-Classifier ( http://arxiv.org/abs/2208.09678v1 )

ライセンス: Link先を確認
Siddartha Dalal, Sierra Vo, Michael Lesk, Wesley Yuan(参考訳) 機械学習は、通常8つの異なる感情状態(中性、幸福、悲しみ、驚き、恐怖、嫌悪、怒り、侮辱)を探すことによって、顔の感情を認識するために使われてきた。 顔のランドマークに基づく特徴認識と,全画素の深層学習の2つのアプローチを検討した。 しかし,異なる画像に対して異なる結果が得られたので,これらの手法を組み合わせた新しいメタ分類器を提案する。 77%の精度で はるかに良い結果が得られます

Machine learning has been used to recognize emotions in faces, typically by looking for 8 different emotional states (neutral, happy, sad, surprise, fear, disgust, anger and contempt). We consider two approaches: feature recognition based on facial landmarks and deep learning on all pixels; each produced 58% overall accuracy. However, they produced different results on different images and thus we propose a new meta-classifier combining these approaches. It produces far better results with 77% accuracy
翻訳日:2022-08-23 13:17:26 公開日:2022-08-20
# YOLOV:静止画オブジェクト検出器をビデオオブジェクト検出に活用

YOLOV: Making Still Image Object Detectors Great at Video Object Detection ( http://arxiv.org/abs/2208.09686v1 )

ライセンス: Link先を確認
Yuheng Shi, Naiyan Wang, Xiaojie Guo(参考訳) ビデオオブジェクト検出(vid)は、オブジェクトの外観の変動が大きいことや、フレームの劣化が多様であることなどから、難しい。 正の面では、静止画と比較してビデオの特定のフレームにおける検出は、他のフレームからの支持を引き出すことができる。 したがって、異なるフレーム間で機能を集約する方法は、VID問題にとって重要な問題である。 既存の集約アルゴリズムのほとんどは、2段階検出器用にカスタマイズされている。 しかし、このカテゴリの検出器は通常、2段階の性質のため計算コストがかかる。 この研究は、上記の懸念に対処するための単純だが効果的な戦略を提案し、精度が大幅に向上した限界オーバーヘッドに費やしている。 具体的には、従来の2段階パイプラインとは違って、1段階検出後の領域レベルの選択は、大規模な低品質候補の処理を避けるために推奨する。 また、ターゲットフレームとその参照フレームとの関係を評価し、アグリゲーションをガイドする新規モジュールを構築した。 我々の設計の有効性を検証し、その効果と効率の両面で他の最先端のVIDアプローチよりも優れていることを示す。 当社のYOLOXベースのモデルは,有望なパフォーマンス(例えば,イメージNet VIDデータセットを1つの2080Ti GPU上で30FPS以上で87.5\% AP50)を実現しています。 実装はシンプルで、デモコードとモデルはhttps://github.com/YuHengss/YOLOV で公開されている。

Video object detection (VID) is challenging because of the high variation of object appearance as well as the diverse deterioration in some frames. On the positive side, the detection in a certain frame of a video, compared with in a still image, can draw support from other frames. Hence, how to aggregate features across different frames is pivotal to the VID problem. Most of existing aggregation algorithms are customized for two-stage detectors. But, the detectors in this category are usually computationally expensive due to the two-stage nature. This work proposes a simple yet effective strategy to address the above concerns, which spends marginal overheads with significant gains in accuracy. Concretely, different from the traditional two-stage pipeline, we advocate putting the region-level selection after the one-stage detection to avoid processing massive low-quality candidates. Besides, a novel module is constructed to evaluate the relationship between a target frame and its reference ones, and guide the aggregation. Extensive experiments and ablation studies are conducted to verify the efficacy of our design, and reveal its superiority over other state-of-the-art VID approaches in both effectiveness and efficiency. Our YOLOX-based model can achieve promising performance (e.g., 87.5\% AP50 at over 30 FPS on the ImageNet VID dataset on a single 2080Ti GPU), making it attractive for large-scale or real-time applications. The implementation is simple, the demo code and models have been made available at https://github.com/YuHengsss/YOLOV .
翻訳日:2022-08-23 13:17:16 公開日:2022-08-20
# SnowFormer: 単一画像認識のためのコンテキストインタラクションによるスケール対応トランス

SnowFormer: Scale-aware Transformer via Context Interaction for Single Image Desnowing ( http://arxiv.org/abs/2208.09703v1 )

ライセンス: Link先を確認
Sixiang Chen, Tian Ye, Yun Liu, Erkang Chen, Jun Shi, Jingchun Zhou(参考訳) 単一のイメージ認識は一般的だが難しい課題である。 複雑な積雪の劣化と多様な劣化は強い表現能力を必要とする。 降雪ネットワークが様々な雪の劣化を観測し,局所的な詳細情報とグローバル情報の相互作用をモデル化するために,SnowFormerと呼ばれる強力なアーキテクチャを提案する。 まず、エンコーダにスケールアウェア機能アグリゲーションを行い、様々な劣化の豊富な雪情報をキャプチャする。 第二に、大規模な劣化に対処するために、デコーダに新しいコンテキストインタラクショントランスフォーマブロックを使用し、グローバルコンテキストインタラクションにおいて、以前のスケールアウェア機能アグリゲーションから、ローカル詳細とグローバル情報のコンテキストインタラクションを実行する。 ローカルコンテキストインタラクションの導入によって,シーン詳細の回復が向上する。 第3に、エンコーダとデコーダの両方から徐々に特徴を融合させ、洗練された特徴をクリーンイメージに投影する異種特徴投影ヘッドを考案する。 広範囲にわたる実験により,提案手法は他のsota法に比べて大きな改善が得られた。 SOTA単一画像認識方式のHDCW-Netと比較すると、PSNRはCSDテストセットで9.2dB向上する。 さらに,除雪作業におけるSnowFormerの強力な表現能力を検証した一般画像復元アーキテクチャNAFNetと比較して,PSNRの5.13dB向上を実現している。 コードは \url{https://github.com/Ephemeral182/SnowFormer} でリリースされる。

Single image desnowing is a common yet challenging task. The complex snow degradations and diverse degradation scales demand strong representation ability. In order for the desnowing network to see various snow degradations and model the context interaction of local details and global information, we propose a powerful architecture dubbed as SnowFormer. First, it performs Scale-aware Feature Aggregation in the encoder to capture rich snow information of various degradations. Second, in order to tackle with large-scale degradation, it uses a novel Context Interaction Transformer Block in the decoder, which conducts context interaction of local details and global information from previous scale-aware feature aggregation in global context interaction. And the introduction of local context interaction improves recovery of scene details. Third, we devise a Heterogeneous Feature Projection Head which progressively fuse features from both the encoder and decoder and project the refined feature into the clean image. Extensive experiments demonstrate that the proposed SnowFormer achieves significant improvements over other SOTA methods. Compared with SOTA single image desnowing method HDCW-Net, it boosts the PSNR metric by 9.2dB on the CSD testset. Moreover, it also achieves a 5.13dB increase in PSNR compared with general image restoration architecture NAFNet, which verifies the strong representation ability of our SnowFormer for snow removal task. The code is released in \url{https://github.com/Ephemeral182/SnowFormer}.
翻訳日:2022-08-23 13:16:51 公開日:2022-08-20
# FSLのための原始認識型識別表現の学習

Learning Primitive-aware Discriminative Representations for FSL ( http://arxiv.org/abs/2208.09717v1 )

ライセンス: Link先を確認
Jianpeng Yang(参考訳) Few-shot learning (FSL) aims to learn a classifier that can be easily adapted to recognize novel classes,given only a few labeled examples per class.Limited data keep this task challenging for deep learning.Recent metric-based methods has achieved promising performance based on image-level features.However,these global features ignore abundant local and structural information that is transferable and consistent between seen and unseen classes.Some study in cognitive science argue that humans can recognize novel classes with the learned primitives.We expect to mine both transferable and discriminative representation from base classes and adopt them to recognize novel classes.Building on the episodic training mechanism,We propose a Primitive Mining and Reasoning Network(PMRN) to learn primitive-aware representation in an end-to-end manner for metric-based FSL model.We first add self-supervision auxiliary task,forcing feature extractor to learn tvisual pattern corresponding to primitives.To further mine and produce transferable primitive-aware representations,we design an Adaptive Channel Grouping(ACG)module to synthesize a set of visual primitives from object embedding by enhancing informative channel maps while suppressing useless ones. 学習したプリミティブ特徴に基づいて,それらの内部関係を捉えるためのセマンティック相関推論(SCR)モジュールを提案し,タスク固有の注意機能に基づいて,プリミティブのタスク固有の重要性を学習し,プリミティブレベルのメトリクスを実行する。

Few-shot learning (FSL) aims to learn a classifier that can be easily adapted to recognize novel classes,given only a few labeled examples per class.Limited data keep this task challenging for deep learning.Recent metric-based methods has achieved promising performance based on image-level features.However,these global features ignore abundant local and structural information that is transferable and consistent between seen and unseen classes.Some study in cognitive science argue that humans can recognize novel classes with the learned primitives.We expect to mine both transferable and discriminative representation from base classes and adopt them to recognize novel classes.Building on the episodic training mechanism,We propose a Primitive Mining and Reasoning Network(PMRN) to learn primitive-aware representation in an end-to-end manner for metric-based FSL model.We first add self-supervision auxiliary task,forcing feature extractor to learn tvisual pattern corresponding to primitives.To further mine and produce transferable primitive-aware representations,we design an Adaptive Channel Grouping(ACG)module to synthesize a set of visual primitives from object embedding by enhancing informative channel maps while suppressing useless ones. Based on the learned primitive feature,a Semantic Correlation Reasoning (SCR) module is proposed to capture internal relations among them.Finally,we learn the task-specific importance of primitives and conduct primitive-level metric based on the task-specific attention feature.Extensive experiments show that our method achieves state-of-the-art results on six standard benchmarks.
翻訳日:2022-08-23 13:16:28 公開日:2022-08-20
# 非バイナリ処理によるユニット選択と効果

Unit Selection with Nonbinary Treatment and Effect ( http://arxiv.org/abs/2208.09569v1 )

ライセンス: Link先を確認
Ang Li and Judea Pearl(参考訳) 単位選択問題(unit selection problem)は、望ましい行動様式を示す可能性が最も高い集団を特定することを目的としている。 実験データと観測データの組み合わせを用いて、LiとPearlは、与えられた特性を持つ個人を選択することで得られる「便益関数」の厳密な境界を導出した。 本稿では,治療と効果がバイナリに制限されないように,利益関数を一般形式に拡張する。 本研究では、非二元利益関数の識別可能性をテストするアルゴリズムと、実験データと観測データを用いて非二元利益関数の境界を計算するアルゴリズムを提案する。

The unit selection problem aims to identify a set of individuals who are most likely to exhibit a desired mode of behavior, for example, selecting individuals who would respond one way if encouraged and a different way if not encouraged. Using a combination of experimental and observational data, Li and Pearl derived tight bounds on the "benefit function", which is the payoff/cost associated with selecting an individual with given characteristics. This paper extends the benefit function to the general form such that the treatment and effect are not restricted to binary. We propose an algorithm to test the identifiability of the nonbinary benefit function and an algorithm to compute the bounds of the nonbinary benefit function using experimental and observational data.
翻訳日:2022-08-23 13:12:15 公開日:2022-08-20
# reckon: 28nmのサブmm2タスクに依存しないスパイクリカレントニューラルネットワークプロセッサ

ReckOn: A 28nm Sub-mm2 Task-Agnostic Spiking Recurrent Neural Network Processor Enabling On-Chip Learning over Second-Long Timescales ( http://arxiv.org/abs/2208.09759v1 )

ライセンス: Link先を確認
Charlotte Frenkel, Giacomo Indiveri(参考訳) 自律エッジデバイスの堅牢な実世界展開には、ユーザ、環境、タスクによる可変性へのオンチップ適応が必要である。 オンチップメモリの制約により、事前学習装置は時間的内容を持たない静的刺激に制限された。 我々は,タスクに依存しないオンライン学習を数秒で実現した0.45-mm$^2$のRNNプロセッサを提案し,0.8-%のメモリオーバーヘッドと<150-$\mu$Wトレーニングパワー予算でナビゲーション,ジェスチャー認識,キーワードスポッティングを実証した。

A robust real-world deployment of autonomous edge devices requires on-chip adaptation to user-, environment- and task-induced variability. Due to on-chip memory constraints, prior learning devices were limited to static stimuli with no temporal contents. We propose a 0.45-mm$^2$ spiking RNN processor enabling task-agnostic online learning over seconds, which we demonstrate for navigation, gesture recognition, and keyword spotting within a 0.8-% memory overhead and a <150-$\mu$W training power budget.
翻訳日:2022-08-23 13:11:15 公開日:2022-08-20
# 医用画像のためのインタラクティブセグメンテーションの変換

Transforming the Interactive Segmentation for Medical Imaging ( http://arxiv.org/abs/2208.09592v1 )

ライセンス: Link先を確認
Wentao Liu, Chaofan Ma, Yuhuan Yang, Weidi Xie, Ya Zhang(参考訳) 本研究の目的は、利用可能なアノテーションの不足や、がんや小臓器の分節化といった問題自体の難しさにより、人間のパフォーマンスの遅れに陥る課題構造に対する自動セグメンテーションをインタラクティブに洗練することである。 具体的には,対話型セグメンテーション(TIS)のための新しいトランスフォーマーベースアーキテクチャを提案する。 提案アーキテクチャはトランスフォーマーデコーダの変種で構成されており,アテンション機構と機能比較を自然に行う。 既存のアプローチとは対照的に,提案するTISはバイナリセグメンテーションに限らず,任意のカテゴリのマスクを編集することができる。 提案手法を検証するために,3つの挑戦的データセットを広範囲に実験し,既存の最先端手法よりも優れた性能を示す。 プロジェクトページは、https://wtliu7.github.io/tis/。

The goal of this paper is to interactively refine the automatic segmentation on challenging structures that fall behind human performance, either due to the scarcity of available annotations or the difficulty nature of the problem itself, for example, on segmenting cancer or small organs. Specifically, we propose a novel Transformer-based architecture for Interactive Segmentation (TIS), that treats the refinement task as a procedure for grouping pixels with similar features to those clicks given by the end users. Our proposed architecture is composed of Transformer Decoder variants, which naturally fulfills feature comparison with the attention mechanisms. In contrast to existing approaches, our proposed TIS is not limited to binary segmentations, and allows the user to edit masks for arbitrary number of categories. To validate the proposed approach, we conduct extensive experiments on three challenging datasets and demonstrate superior performance over the existing state-of-the-art methods. The project page is: https://wtliu7.github.io/tis/.
翻訳日:2022-08-23 13:10:19 公開日:2022-08-20
# ドメイン適応型keyphrase生成のためのgeneral-to-specific transfer labeling

General-to-Specific Transfer Labeling for Domain Adaptable Keyphrase Generation ( http://arxiv.org/abs/2208.09606v1 )

ライセンス: Link先を確認
Rui Meng, Tong Wang, Xingdi Yuan, Yingbo Zhou, Daqing He(参考訳) トレーニングキーフレーズ生成(KPG)モデルは、大量の注釈付きデータを必要とする。 本研究では,各領域間の大きな分布変化がKPGモデルの伝達性を著しく阻害することを示した。 次に,kpgモデルの学習焦点を一般構文的特徴からドメイン関連意味論へ,データ効率のよい方法で徐々に誘導する3段階パイプラインを提案する。 ドメイン一般句事前学習により,web上で広く利用可能な汎用句アノテーションを用いたシーケンス・ツー・シーケンスモデルを事前学習し,幅広い領域で句を生成することができる。 結果のモデルがTransfer Labelingの段階で適用され、ドメイン固有の擬似キーフレーズが生成され、モデルが新しいドメインに適応するのに役立つ。 最後に、ターゲットドメインに完全に適応するために、真のラベルを持つ限られたデータでモデルを微調整する。 実験結果から,提案プロセスは新規ドメインで高品質なキーフレーズを生成でき,ドメイン内アノテートデータに限定して適応することで一貫した改善が達成できることがわかった。

Training keyphrase generation (KPG) models requires a large amount of annotated data, which can be prohibitively expensive and often limited to specific domains. In this study, we first demonstrate that large distribution shifts among different domains severely hinder the transferability of KPG models. We then propose a three-stage pipeline, which gradually guides KPG models' learning focus from general syntactical features to domain-related semantics, in a data-efficient manner. With Domain-general Phrase pre-training, we pre-train Sequence-to-Sequence models with generic phrase annotations that are widely available on the web, which enables the models to generate phrases in a wide range of domains. The resulting model is then applied in the Transfer Labeling stage to produce domain-specific pseudo keyphrases, which help adapt models to a new domain. Finally, we fine-tune the model with limited data with true labels to fully adapt it to the target domain. Our experiment results show that the proposed process can produce good quality keyphrases in new domains and achieve consistent improvements after adaptation with limited in-domain annotated data.
翻訳日:2022-08-23 12:59:52 公開日:2022-08-20
# 事前学習された言語エンコーダはアスペクト感情三重項抽出のための自然なタグ付けフレームワークである

Pretrained Language Encoders are Natural Tagging Frameworks for Aspect Sentiment Triplet Extraction ( http://arxiv.org/abs/2208.09617v1 )

ライセンス: Link先を確認
Yanjie Gou, Yinjie Lei, Lingqiao Liu, Yong Dai, Chunxu Shen, Yongqi Tong(参考訳) Aspect Sentiment Triplet extract (ASTE)は、アスペクト、意見、感情関係を感情三重項として抽出することを目的としている。 既存の作品は通常、スパン検出を1dトークンタグ付け問題として定式化し、トークンペアの2dタグ付きマトリックスで感情認識をモデル化する。 さらに、bertのようなプリトレーニングされた言語エンコーダ(ple)のトークン表現を利用することで、パフォーマンスが向上する。 しかし、単にpleを機能抽出器として利用してモジュールを構築するだけで、pleが持つ特定の知識を深く理解することはできない。 本稿では,ASTEの帰納バイアスを捉えるモジュールをさらに設計する代わりに,ple自体に1Dと2Dのタグ付けのための"粗い"特徴が含まれていることを論じる。 2) 異なる PLE 層の注意行列は,トークンペアに存在する多段階の言語知識をさらに捉えることができる。 (3) 単純な変換では, これら2つの特徴は, それぞれ2次元タグ付け行列と1次元タグ付けシーケンスに容易に変換できる。 これによりタグ付け結果はさらに向上する。 そうすることで、PLEは自然なタグ付けフレームワークとなり、幅広い実験と深い分析によって検証される新しい最先端技術を達成することができる。

Aspect Sentiment Triplet Extraction (ASTE) aims to extract the spans of aspect, opinion, and their sentiment relations as sentiment triplets. Existing works usually formulate the span detection as a 1D token tagging problem, and model the sentiment recognition with a 2D tagging matrix of token pairs. Moreover, by leveraging the token representation of Pretrained Language Encoders (PLEs) like BERT, they can achieve better performance. However, they simply leverage PLEs as feature extractors to build their modules but never have a deep look at what specific knowledge does PLEs contain. In this paper, we argue that instead of further designing modules to capture the inductive bias of ASTE, PLEs themselves contain "enough" features for 1D and 2D tagging: (1) The token representation contains the contextualized meaning of token itself, so this level feature carries necessary information for 1D tagging. (2) The attention matrix of different PLE layers can further capture multi-level linguistic knowledge existing in token pairs, which benefits 2D tagging. (3) Furthermore, with simple transformations, these two features can also be easily converted to the 2D tagging matrix and 1D tagging sequence, respectively. That will further boost the tagging results. By doing so, PLEs can be natural tagging frameworks and achieve a new state of the art, which is verified by extensive experiments and deep analyses.
翻訳日:2022-08-23 12:59:30 公開日:2022-08-20
# コンテキストにおける損失? 文脈的単語埋め込みの感覚的変化について

Lost in Context? On the Sense-wise Variance of Contextualized Word Embeddings ( http://arxiv.org/abs/2208.09669v1 )

ライセンス: Link先を確認
Yile Wang and Yue Zhang(参考訳) 言語モデルにおける文脈化された単語埋め込みは、NLPに大きな進歩をもたらした。 直感的には、センテンシャル情報は単語の表現に統合され、ポリセミーのモデル化に役立つ。 しかし、文脈の感度は表現のばらつきにもつながり、同義語の意味的一貫性を損なう可能性がある。 各単語感覚の文脈的埋め込みが、典型的な事前学習モデルの文脈によってどの程度異なるかを定量化する。 その結果、コンテキスト化された埋め込みはコンテキスト間で高度に一貫性を持つことができる。 さらに, 音声のパート・オブ・スペル, 単語知覚数, 文長は, 感覚表現のばらつきに影響を及ぼす。 興味深いことに、単語表現は位置バイアスがあり、異なる文脈における最初の単語はより類似する傾向にある。 このような現象を分析し,距離に基づく単語認識の曖昧さを緩和するための簡易な方法を提案する。

Contextualized word embeddings in language models have given much advance to NLP. Intuitively, sentential information is integrated into the representation of words, which can help model polysemy. However, context sensitivity also leads to the variance of representations, which may break the semantic consistency for synonyms. We quantify how much the contextualized embeddings of each word sense vary across contexts in typical pre-trained models. Results show that contextualized embeddings can be highly consistent across contexts. In addition, part-of-speech, number of word senses, and sentence length have an influence on the variance of sense representations. Interestingly, we find that word representations are position-biased, where the first words in different contexts tend to be more similar. We analyze such a phenomenon and also propose a simple way to alleviate such bias in distance-based word sense disambiguation settings.
翻訳日:2022-08-23 12:59:07 公開日:2022-08-20
# 自然言語タスクにおける乗算サイズスケーリングのための圧縮の組み合わせ

Combining Compressions for Multiplicative Size Scaling on Natural Language Tasks ( http://arxiv.org/abs/2208.09684v1 )

ライセンス: Link先を確認
Rajiv Movva, Jinhao Lei, Shayne Longpre, Ajay Gupta, Chris DuBois(参考訳) 量子化、知識蒸留、マグニチュードプルーニングは、nlpにおけるニューラルネットワーク圧縮の最も一般的な方法である。 独立に、これらの手法はモデルのサイズを減らし、推論を加速するが、それらの相対的な利益と組合せ的相互作用は厳密に研究されていない。 これらの手法の可能な8つのサブセットについて、6つのBERTアーキテクチャサイズと8つのGLUEタスクの精度対モデルサイズトレードオフを比較する。 定量化と蒸留は、プルーニングよりも常に大きな利益をもたらす。 驚くべきことに、プルーニングと量子化のペアを除いて、複数のメソッドを一緒に使うとリターンが減少することが滅多にない。 代わりに、モデルサイズへの相補的および超乗法的還元を観察する。 本研究は,圧縮手法を組み合わせることで,相乗的にモデルサイズを削減できることを定量的に示し,(1)定量化,(2)知識蒸留,(3)モデルサイズトレードオフを最大化するためにプルーニングを優先すべきである。

Quantization, knowledge distillation, and magnitude pruning are among the most popular methods for neural network compression in NLP. Independently, these methods reduce model size and can accelerate inference, but their relative benefit and combinatorial interactions have not been rigorously studied. For each of the eight possible subsets of these techniques, we compare accuracy vs. model size tradeoffs across six BERT architecture sizes and eight GLUE tasks. We find that quantization and distillation consistently provide greater benefit than pruning. Surprisingly, except for the pair of pruning and quantization, using multiple methods together rarely yields diminishing returns. Instead, we observe complementary and super-multiplicative reductions to model size. Our work quantitatively demonstrates that combining compression methods can synergistically reduce model size, and that practitioners should prioritize (1) quantization, (2) knowledge distillation, and (3) pruning to maximize accuracy vs. model size tradeoffs.
翻訳日:2022-08-23 12:58:53 公開日:2022-08-20
# 文法エラー生成のための内容による文判断

Judge a Sentence by Its Content to Generate Grammatical Errors ( http://arxiv.org/abs/2208.09693v1 )

ライセンス: Link先を確認
Chowdhury Rafeed Rahman(参考訳) データ間隔は文法的誤り訂正(GEC)においてよく知られた問題である。 合成トレーニングデータの生成は、この問題に対する広く提案されている解決策の一つであり、近年、モデルが最先端(SOTA)のパフォーマンスを達成することを可能にする。 しかし、これらの方法はしばしば非現実的なエラーを発生させるか、1つのエラーで文を生成することを目的としている。 本稿では,この制約を1つの誤りのみを含む文に緩和するGECのための学習に基づく2段階合成データ生成手法を提案する。 誤りは文のメリットに応じて発生する。 合成コーパスで学習したGECモデルは,先行研究から得られた合成データで訓練したモデルよりも優れていた。

Data sparsity is a well-known problem for grammatical error correction (GEC). Generating synthetic training data is one widely proposed solution to this problem, and has allowed models to achieve state-of-the-art (SOTA) performance in recent years. However, these methods often generate unrealistic errors, or aim to generate sentences with only one error. We propose a learning based two stage method for synthetic data generation for GEC that relaxes this constraint on sentences containing only one error. Errors are generated in accordance with sentence merit. We show that a GEC model trained on our synthetically generated corpus outperforms models trained on synthetic data from prior work.
翻訳日:2022-08-23 12:58:36 公開日:2022-08-20
# 非構造化コーパスのためのスケーラブルな知識グラフ構築システムgbuilder

gBuilder: A Scalable Knowledge Graph Construction System for Unstructured Corpus ( http://arxiv.org/abs/2208.09705v1 )

ライセンス: Link先を確認
Yanzeng Li, Lei Zou(参考訳) 非構造化コーパスから構造化知識を抽出するためのユーザフレンドリーでスケーラブルな知識グラフ構築(kgc)システムを設計する。 既存のKGCシステムとは異なり、gBuilderはIEモデルの迅速な開発を受け入れるためのフレキシブルでユーザ定義のパイプラインを提供する。 テンプレートベースの、あるいはヒューリスティックなオペレータやプログラマブルなオペレータは、さまざまなドメインのデータに適応することができる。 さらに,クラウドベースのgbuilderの自己適応型タスクスケジューリングも設計し,大規模ナレッジグラフ構築におけるスケーラビリティを確保する。 実験により,gBuilderが一様プラットフォームにおける知識グラフ構築のための複数の情報抽出モデルを編成できるだけでなく,大規模KGCタスクにおける高いスケーラビリティも確認できた。

We design a user-friendly and scalable knowledge graph construction (KGC) system for extracting structured knowledge from the unstructured corpus. Different from existing KGC systems, gBuilder provides a flexible and user-defined pipeline to embracing the rapid development of IE models. More built-in template-based or heuristic operators and programmable operators are available for adapting to data from different domains. Furthermore, we also design a cloud-based self-adaptive task scheduling for gBuilder to ensure its scalability on large-scale knowledge graph construction. Experimental evaluation not only demonstrates the ability of gBuilder to organize multiple information extraction models for knowledge graph construction in a uniform platform, and also confirms its high scalability on large-scale KGC task.
翻訳日:2022-08-23 12:58:27 公開日:2022-08-20
# BSpell: CNNによるBERTベースのBengali Spell Checker

BSpell: A CNN-blended BERT Based Bengali Spell Checker ( http://arxiv.org/abs/2208.09709v1 )

ライセンス: Link先を確認
Chowdhury Rafeed Rahman, MD. Hasibur Rahman, Samiha Zakir, Mohammad Rafsan, Mohammed Eunus Ali(参考訳) ベンガルのタイピングは主に英語のキーボードで行われており、複合文字や同様に発音される文字が存在するため、非常に誤りがある。 スペルミスされた単語のスペル訂正には、単語の型付けパターンの理解と、単語の使用状況が必要である。 文レベルにおける単語訂正のための単語を対象とする特殊BERTモデルBSpellを提案する。 BSpellには、セマンティックネットと呼ばれるエンドツーエンドのトレーニング可能なCNNサブモデルと、特別な補助的損失が含まれている。 これにより、BSpellはスペルエラーの存在下で高度に屈折したベンガル語彙を専門化することができる。 さらに,単語レベルと文字レベルマスキングを組み合わせたbspellのハイブリッドプリトレーニング方式を提案する。 この事前訓練スキームを利用することで、BSpellは実生活のベンガル文字のスペル補正セットで91.5%の精度を達成する。 2つのベンガル語と1つのヒンディー語の綴り訂正データセットの詳細な比較は、既存の綴りチェッカーよりもbspellの方が優れていることを示している。

Bengali typing is mostly performed using English keyboard and can be highly erroneous due to the presence of compound and similarly pronounced letters. Spelling correction of a misspelled word requires understanding of word typing pattern as well as the context of the word usage. We propose a specialized BERT model, BSpell targeted towards word for word correction in sentence level. BSpell contains an end-to-end trainable CNN sub-model named SemanticNet along with specialized auxiliary loss. This allows BSpell to specialize in highly inflected Bengali vocabulary in the presence of spelling errors. We further propose hybrid pretraining scheme for BSpell combining word level and character level masking. Utilizing this pretraining scheme, BSpell achieves 91.5% accuracy on real life Bengali spelling correction validation set. Detailed comparison on two Bengali and one Hindi spelling correction dataset shows the superiority of proposed BSpell over existing spell checkers.
翻訳日:2022-08-23 12:58:15 公開日:2022-08-20
# 頂点候補設定におけるネットワークの敵対的汚染--新しいトリミング法

Adversarial contamination of networks in the setting of vertex nomination: a new trimming method ( http://arxiv.org/abs/2208.09710v1 )

ライセンス: Link先を確認
Sheyda Peyman, Minh Tang, Vince Lyzinski(参考訳) グラフデータがよりユビキタスになるにつれて、これらの複雑なデータ領域で運用する堅牢な推論グラフアルゴリズムの必要性が不可欠である。 多くの場合、推論は逆データ汚染の存在によってさらに複雑になる。 逆境の効果は、統計的およびアルゴリズム的性能に悪影響を及ぼす方法でデータ分布を変更するためにしばしば発生する。 本稿では,この現象を,ネットワークデータに対する半教師付き情報検索タスクである頂点指名の文脈で研究する。 ここでは、アルゴリズム性能とフレキシブルな設定の両方を提供し、敵の効果を緩和するために正規化手法を実装できることが示されているスペクトルグラフの埋め込みに依存している。 多くの現在の正則化法は直接ネットワークトリミングに依存して敵の汚染を効果的に除去するが、この直接トリミングは結果グラフに複雑な依存構造をもたらすことが多い。 ブロック構造汚染とホワイトノイズ汚染(分布が不明な汚染)の両方に対処できるモデル空間で動作する新しいトリミング法を提案する。 このモデルトリミングは、直接トリミングに比べて多くのシミュレーションで優れた性能を示すと同時に、理論解析に適している。

As graph data becomes more ubiquitous, the need for robust inferential graph algorithms to operate in these complex data domains is crucial. In many cases of interest, inference is further complicated by the presence of adversarial data contamination. The effect of the adversary is frequently to change the data distribution in ways that negatively affect statistical and algorithmic performance. We study this phenomenon in the context of vertex nomination, a semi-supervised information retrieval task for network data. Here, a common suite of methods relies on spectral graph embeddings, which have been shown to provide both good algorithmic performance and flexible settings in which regularization techniques can be implemented to help mitigate the effect of an adversary. Many current regularization methods rely on direct network trimming to effectively excise the adversarial contamination, although this direct trimming often gives rise to complicated dependency structures in the resulting graph. We propose a new trimming method that operates in model space which can address both block structure contamination and white noise contamination (contamination whose distribution is unknown). This model trimming is more amenable to theoretical analysis while also demonstrating superior performance in a number of simulations, compared to direct trimming.
翻訳日:2022-08-23 12:55:42 公開日:2022-08-20
# タンパク質構造予測のための正確なフォールディングランドスケープのマイズショット学習

Few-Shot Learning of Accurate Folding Landscape for Protein Structure Prediction ( http://arxiv.org/abs/2208.09652v1 )

ライセンス: Link先を確認
Jun Zhang, Sirui Liu, Mengyun Chen, Haotian Chu, Min Wang, Zidong Wang, Jialiang Yu, Ningxi Ni, Fan Yu, Diqing Chen, Yi Isaac Yang, Boxin Xue, Lijiang Yang, Yuan Liu and Yi Qin Gao(参考訳) タンパク質配列を生物学的に活性な構造に効率的かつ正確に変換できるデータ駆動予測法は、科学的研究と治療の発展に非常に有用である。 共進化情報を用いた正確な折りたたみ景観の決定は、現代のタンパク質構造予測手法の成功に不可欠である。 技術の現状として、AlphaFold2は明示的な共進化分析を行うことなく精度を劇的に向上させた。 それでも、その性能は利用可能なシーケンスホモログに強く依存している。 このような依存の原因を調査し,メタ生成モデルであるevogenをmsa目標の貧弱に対してαfold2の低性能を改善するために提示した。 EvoGenは、探索されたMSAをデノベートするか、仮想MSAを生成することで折りたたみ風景を操作でき、AlphaFold2を低データで正確に折りたたみしたり、単一シーケンス予測で励まし性能を達成できる。 少数ショットのMSAで正確な予測を行えるようになると、AlphaFold2は孤児のシーケンスをより良く一般化するだけでなく、高スループットアプリケーションでの使用を民主化できる。 さらに、EvoGenとAlphaFold2を組み合わせることで、タンパク質配列の代替コンフォメーションを探索できる確率的構造生成法が得られ、配列生成のためのタスク認識微分アルゴリズムは、タンパク質設計を含む他の関連するタスクの恩恵を受ける。

Data-driven predictive methods which can efficiently and accurately transform protein sequences into biologically active structures are highly valuable for scientific research and therapeutical development. Determining accurate folding landscape using co-evolutionary information is fundamental to the success of modern protein structure prediction methods. As the state of the art, AlphaFold2 has dramatically raised the accuracy without performing explicit co-evolutionary analysis. Nevertheless, its performance still shows strong dependence on available sequence homologs. We investigated the cause of such dependence and presented EvoGen, a meta generative model, to remedy the underperformance of AlphaFold2 for poor MSA targets. EvoGen allows us to manipulate the folding landscape either by denoising the searched MSA or by generating virtual MSA, and helps AlphaFold2 fold accurately in low-data regime or even achieve encouraging performance with single-sequence predictions. Being able to make accurate predictions with few-shot MSA not only generalizes AlphaFold2 better for orphan sequences, but also democratizes its use for high-throughput applications. Besides, EvoGen combined with AlphaFold2 yields a probabilistic structure generation method which could explore alternative conformations of protein sequences, and the task-aware differentiable algorithm for sequence generation will benefit other related tasks including protein design.
翻訳日:2022-08-23 12:49:45 公開日:2022-08-20
# 生物学的に着想を得た分子生成機械学習の評価

A biologically-inspired evaluation of molecular generative machine learning ( http://arxiv.org/abs/2208.09658v1 )

ライセンス: Link先を確認
Elizaveta Vinogradova, Abay Artykbayev, Alisher Amanatay, Mukhamejan Karatayev, Maxim Mametkulov, Albina Li, Anuar Suleimenov, Abylay Salimzhanov, Karina Pats, Rustam Zhumagambetov, Ferdinand Moln\'ar, Vsevolod Peshkov, Siamac Fazli(参考訳) 近年,多くの科学分野において生成モデルが普及しているが,その評価にはあまり注意が払われていない。 分子生成モデルでは、最先端技術はその出力を独立に、またはその入力に関して調べる。 しかし、リガンド-標的相互作用などの生物学的・機能的な性質は解決されていない。 本研究では,分子生成モデル評価のための生物学的指標を提案する。 具体的には、3つの多様な参照データセットが設計され、薬物発見プロセスに直接関係するメトリクスのセットが導入される。 特に, 創出出力評価のための相補的手法として, 医薬品親和性予測と分子ドッキングを適用したレクリエーション指標を提案する。 いずれの指標も、試験された生成モデル全体で一貫した結果を示す一方で、薬物-標的親和性結合と分子ドッキングスコアのより詳細な比較により、分子レベルでの標的結合に関する誤った結論を導出し、マルチモーダルアプローチが好ましいことが判明した。 このフレームワークの鍵となる利点は、リガンドとターゲットの相互作用に明示的に焦点を合わせ、特に分子生成出力を評価するだけでなく、一般に薬物発見プロセスの強化にも高効率なツールを作成することにより、以前の物理化学的ドメイン知識をベンチマークプロセスに組み込むことである。

While generative models have recently become ubiquitous in many scientific areas, less attention has been paid to their evaluation. For molecular generative models, the state-of-the-art examines their output in isolation or in relation to its input. However, their biological and functional properties, such as ligand-target interaction is not being addressed. In this study, a novel biologically-inspired benchmark for the evaluation of molecular generative models is proposed. Specifically, three diverse reference datasets are designed and a set of metrics are introduced which are directly relevant to the drug discovery process. In particular we propose a recreation metric, apply drug-target affinity prediction and molecular docking as complementary techniques for the evaluation of generative outputs. While all three metrics show consistent results across the tested generative models, a more detailed comparison of drug-target affinity binding and molecular docking scores revealed that unimodal predictiors can lead to erroneous conclusions about target binding on a molecular level and a multi-modal approach is thus preferrable. The key advantage of this framework is that it incorporates prior physico-chemical domain knowledge into the benchmarking process by focusing explicitly on ligand-target interactions and thus creating a highly efficient tool not only for evaluating molecular generative outputs in particular, but also for enriching the drug discovery process in general.
翻訳日:2022-08-23 12:49:19 公開日:2022-08-20
# 運転シーン認識における機能マッチングの有効性

Effectiveness of Function Matching in Driving Scene Recognition ( http://arxiv.org/abs/2208.09694v1 )

ライセンス: Link先を確認
Shingo Yashima(参考訳) 知識蒸留は、自動運転に必要なコンパクト認識を訓練するための効果的なアプローチである。 近年の画像分類研究では,幅広いデータポイントにおける学生と教師のマッチングが蒸留性能の向上に不可欠であることが示されている。 この概念(関数マッチングと呼ばれる)はシーン認識の駆動に適している。 本研究では,このような大量の無ラベルデータを用いた蒸留が,自律運転のための構造化予測タスクにおける学生モデルの性能に与える影響を実験的に検討した。 大規模実験により, 大規模非ラベルデータを用いた知識蒸留による大規模教員の成果に匹敵する, コンパクトな学生モデルの性能を劇的に改善できることを実証した。

Knowledge distillation is an effective approach for training compact recognizers required in autonomous driving. Recent studies on image classification have shown that matching student and teacher on a wide range of data points is critical for improving performance in distillation. This concept (called function matching) is suitable for driving scene recognition, where generally an almost infinite amount of unlabeled data are available. In this study, we experimentally investigate the impact of using such a large amount of unlabeled data for distillation on the performance of student models in structured prediction tasks for autonomous driving. Through extensive experiments, we demonstrate that the performance of the compact student model can be improved dramatically and even match the performance of the large-scale teacher by knowledge distillation with massive unlabeled data.
翻訳日:2022-08-23 12:43:55 公開日:2022-08-20
# 分散リプレイによる連続学習のためのマルチヘッドモデル

A Multi-Head Model for Continual Learning via Out-of-Distribution Replay ( http://arxiv.org/abs/2208.09734v1 )

ライセンス: Link先を確認
Gyuhak Kim, Zixuan Ke, Bing Liu(参考訳) 本稿では,継続学習(CL)のクラスインクリメンタル学習(CIL)について検討する。 CILにおける破滅的忘れ(CF)に対する多くのアプローチが提案されている。 ほとんどのメソッドは、単一のヘッダネットワーク内のすべてのタスクのクラスに対して、インクリメンタルに単一の分類器を構築する。 cfを防止するため、一般的なアプローチは、以前のタスクから少数のサンプルを記憶し、新しいタスクのトレーニング中にそれを再生する。 しかし、このアプローチは依然として深刻なcfに苦しむ。以前のタスクで学んだパラメータは、メモリに保存されたサンプルの数を限定して更新または調整される。 本稿では,各タスク(マルチヘッドモデルと呼ばれる)に対して more と呼ばれるトランスフォーマーネットワークを用いて別個の分類器(ヘッド)を構築する,まったく異なるアプローチを提案する。 メモリ上に保存されたサンプルを使用して既存のアプローチで以前のタスク/クラスを更新するのではなく、保存されたサンプルを活用して、以前のタスク/クラスで学んだネットワークを更新することなく、タスク固有の分類器(新しい分類ヘッドを追加する)を構築する。 MOREにおける新しいタスクのモデルは、タスクのクラスを学習し、タスクの同じデータ分布(すなわち、アウト・オブ・ディストリビューション(OOD))からないサンプルを検出するために訓練される。 これにより、テストインスタンスが属するタスクの分類器は、正しいクラスに対して高いスコアを生成することができ、他のタスクの分類器は、テストインスタンスがこれらの分類器のデータ分布からではないため、低いスコアを生成することができる。 実験の結果,MOREは最先端のベースラインよりも優れており,連続学習環境でOOD検出を自然に行うことができることがわかった。

This paper studies class incremental learning (CIL) of continual learning (CL). Many approaches have been proposed to deal with catastrophic forgetting (CF) in CIL. Most methods incrementally construct a single classifier for all classes of all tasks in a single head network. To prevent CF, a popular approach is to memorize a small number of samples from previous tasks and replay them during training of the new task. However, this approach still suffers from serious CF as the parameters learned for previous tasks are updated or adjusted with only the limited number of saved samples in the memory. This paper proposes an entirely different approach that builds a separate classifier (head) for each task (called a multi-head model) using a transformer network, called MORE. Instead of using the saved samples in memory to update the network for previous tasks/classes in the existing approach, MORE leverages the saved samples to build a task specific classifier (adding a new classification head) without updating the network learned for previous tasks/classes. The model for the new task in MORE is trained to learn the classes of the task and also to detect samples that are not from the same data distribution (i.e., out-of-distribution (OOD)) of the task. This enables the classifier for the task to which the test instance belongs to produce a high score for the correct class and the classifiers of other tasks to produce low scores because the test instance is not from the data distributions of these classifiers. Experimental results show that MORE outperforms state-of-the-art baselines and is also naturally capable of performing OOD detection in the continual learning setting.
翻訳日:2022-08-23 12:43:45 公開日:2022-08-20
# スマートシティ交通システムにおける事故検出のための行動認識の見直し

Review on Action Recognition for Accident Detection in Smart City Transportation Systems ( http://arxiv.org/abs/2208.09588v1 )

ライセンス: Link先を確認
Victor Adewopo, Nelly Elsayed, Zag ElSayed, Murat Ozer, Ahmed Abdelgawad, Magdy Bayoumi(参考訳) 行動検出と交通安全は、安全なコミュニティとより良い社会の重要な側面である。 異なる監視カメラを使用してスマートシティの交通の流れを監視することは、事故を認識し、最初の応答者を警告する上で重要な役割を果たす。 コンピュータビジョンタスクにおける行動認識(AR)の利用は、ビデオ監視、医療画像、デジタル信号処理における高精度な応用に寄与している。 本稿では,スマートシティにおける事故検出と自律走行システムにおける行動認識に重点を置く。 本稿では,交通交差点の静的監視カメラ,高速道路監視カメラ,ドローンカメラ,ダッシュカメラなど,交通ビデオ撮影の多種多様な源を用いたarシステムに注目した。 本稿では,自動走行および事故検出にARで使用される主要な技術,分類,アルゴリズムについて検討した。 また、ARタスクで使用されるデータセットを調べ、データセットの主なソースとデータセットの特徴を特定した。 本稿では,事故報告における人的エラーを最小限に抑え,被災者への自発的対応を提供することにより,自動運転車や公共交通安全システムにおける事故検知システムの開発と統合に向けた研究の方向性について述べる。

Action detection and public traffic safety are crucial aspects of a safe community and a better society. Monitoring traffic flows in a smart city using different surveillance cameras can play a significant role in recognizing accidents and alerting first responders. The utilization of action recognition (AR) in computer vision tasks has contributed towards high-precision applications in video surveillance, medical imaging, and digital signal processing. This paper presents an intensive review focusing on action recognition in accident detection and autonomous transportation systems for a smart city. In this paper, we focused on AR systems that used diverse sources of traffic video capturing, such as static surveillance cameras on traffic intersections, highway monitoring cameras, drone cameras, and dash-cams. Through this review, we identified the primary techniques, taxonomies, and algorithms used in AR for autonomous transportation and accident detection. We also examined data sets utilized in the AR tasks, identifying the main sources of datasets and features of the datasets. This paper provides potential research direction to develop and integrate accident detection systems for autonomous cars and public traffic safety systems by alerting emergency personnel and law enforcement in the event of road accidents to minimize human error in accident reporting and provide a spontaneous response to victims
翻訳日:2022-08-23 12:41:53 公開日:2022-08-20
# Net2Brain:人工視覚モデルと人間の脳反応を比較するツールボックス

Net2Brain: A Toolbox to compare artificial vision models with human brain responses ( http://arxiv.org/abs/2208.09677v1 )

ライセンス: Link先を確認
Domenic Bersch, Kshitij Dwivedi, Martina Vilas, Radoslaw M. Cichy, Gemma Roig(参考訳) 人工深層ニューラルネットワーク(dnn)と人間の脳記録の表現空間を比較するための,グラフィカルおよびコマンドラインユーザインタフェースツールボックスであるnet2brainを紹介する。 異なるツールボックスは単一の機能のみを促進するか、監督された画像分類モデルの小さなサブセットにのみフォーカスするが、Net2Brainは600以上のDNNのアクティベーションを抽出して、画像とビデオの両方のデータセット上で、様々な視覚関連タスク(セマンティックセグメンテーション、深さ推定、アクション認識など)を実行するように訓練することができる。 ツールボックスはこれらのアクティベーション上で表現相似行列(RDM)を計算し、特定のROIとサーチライト検索の両方において、表現相似分析(RSA)、重み付きRSAを用いて脳記録と比較する。 さらに、ツールボックスに新しい刺激と脳記録のデータセットを追加して評価することが可能である。 我々はNet2Brainの機能と利点を、認知計算神経科学の仮説の検証にどのように使えるかを示す例で示す。

We introduce Net2Brain, a graphical and command-line user interface toolbox for comparing the representational spaces of artificial deep neural networks (DNNs) and human brain recordings. While different toolboxes facilitate only single functionalities or only focus on a small subset of supervised image classification models, Net2Brain allows the extraction of activations of more than 600 DNNs trained to perform a diverse range of vision-related tasks (e.g semantic segmentation, depth estimation, action recognition, etc.), over both image and video datasets. The toolbox computes the representational dissimilarity matrices (RDMs) over those activations and compares them to brain recordings using representational similarity analysis (RSA), weighted RSA, both in specific ROIs and with searchlight search. In addition, it is possible to add a new data set of stimuli and brain recordings to the toolbox for evaluation. We demonstrate the functionality and advantages of Net2Brain with an example showcasing how it can be used to test hypotheses of cognitive computational neuroscience.
翻訳日:2022-08-23 12:41:34 公開日:2022-08-20
# 次元サイズに基づくスイッチ確率の調整の試み--フラワー受粉アルゴリズムの性能改善を事例として

An Approach of Adjusting the Switch Probability based on Dimension Size: A Case Study for Performance Improvement of the Flower Pollination Algorithm ( http://arxiv.org/abs/2208.09699v1 )

ライセンス: Link先を確認
Tahsin Aziz, Tashreef Muhammad, Md. Rashedul Karim Chowdhury and Mohammad Shafiul Alam(参考訳) 多くのメタヒューリスティックアルゴリズムは自然に影響を受けている。 過去数十年間、その量は大幅に増加してきた。 これらのアルゴリズムの大部分は、自然の生物学的および物理的現象をエミュレートしようとする。 この研究は、いくつかのバイオインスパイアされたアルゴリズムの1つであるフラワーポリレーションアルゴリズムに焦点を当てている。 元々のアプローチは、特定の地球規模の受粉と局所的な受粉戦略を用いて、閉じ込められた空間における花粉の穀物の探索と搾取のために提案された。 swarm intelligence」メタヒューリスティックなアルゴリズムとして、その強みは最小値を特定するよりも最適な解の近傍を見つけることである。 本書では元の方法の修正について詳述する。 本研究は,異なる次元の大きさと関数の動的値で「スイッチ確率」の具体的値を変化させることにより,花の受粉方法よりも結果が改善されることを見出した。

Numerous meta-heuristic algorithms have been influenced by nature. Over the past couple of decades, their quantity has been significantly escalating. The majority of these algorithms attempt to emulate natural biological and physical phenomena. This research concentrates on the Flower Pollination algorithm, which is one of several bio-inspired algorithms. The original approach was suggested for pollen grain exploration and exploitation in confined space using a specific global pollination and local pollination strategy. As a "swarm intelligence" meta-heuristic algorithm, its strength lies in locating the vicinity of the optimum solution rather than identifying the minimum. A modification to the original method is detailed in this work. This research found that by changing the specific value of "switch probability" with dynamic values of different dimension sizes and functions, the outcome was mainly improved over the original flower pollination method.
翻訳日:2022-08-23 12:40:56 公開日:2022-08-20
# 今あなたは快適か:冬期における温暖化の時間変化の深層学習

Are You Comfortable Now: Deep Learning the Temporal Variation in Thermal Comfort in Winters ( http://arxiv.org/abs/2208.09628v1 )

ライセンス: Link先を確認
Betty Lala, Srikant Manas Kala, Anmol Rastogi, Kunal Dahiya, Aya Hagishima(参考訳) スマートな建物における室内熱的快適さは、居住者の健康とパフォーマンスに大きな影響を及ぼす。 その結果、機械学習(ML)は、室内の熱的快適性に関わる課題を解決するためにますます使われてきている。 温熱的快適感の時間的変動は、居住地とエネルギー消費を規制する重要な問題である。 しかし,ほとんどのMLに基づく熱快適な研究では,日時,概日リズム,屋外温度といった時間的側面は考慮されていない。 この仕事はこれらの問題に対処する。 MLモデルの予測精度と分類性能に及ぼす概日リズムと屋外温度の影響について検討した。 データは,小学校512校の14教室を対象に,1カ月間にわたるフィールド実験によって収集された。 データセットに対するDeep Neural NetworksとSupport Vector Machineモデルの出力として,4つの熱的快適度指標が考慮されている。 時間的変動が児童の快適性に及ぼす影響を「昼の時間」分析により示す。 予測精度の時間変動を実証する(最大80%)。 さらに,室外温度(経時変化)が最大30%の温熱快適性モデルの予測性能に正の影響を与えることを示した。 マイクロレベル(位置特化)とマクロレベル(6箇所)のパフォーマンスを対比することにより、時空間の重要性が示される。 この研究の最も重要な発見は、複数の熱的快適度測定のために、日時と天空照度の増加とともに予測精度が決定的に向上していることである。

Indoor thermal comfort in smart buildings has a significant impact on the health and performance of occupants. Consequently, machine learning (ML) is increasingly used to solve challenges related to indoor thermal comfort. Temporal variability of thermal comfort perception is an important problem that regulates occupant well-being and energy consumption. However, in most ML-based thermal comfort studies, temporal aspects such as the time of day, circadian rhythm, and outdoor temperature are not considered. This work addresses these problems. It investigates the impact of circadian rhythm and outdoor temperature on the prediction accuracy and classification performance of ML models. The data is gathered through month-long field experiments carried out in 14 classrooms of 5 schools, involving 512 primary school students. Four thermal comfort metrics are considered as the outputs of Deep Neural Networks and Support Vector Machine models for the dataset. The effect of temporal variability on school children's comfort is shown through a "time of day" analysis. Temporal variability in prediction accuracy is demonstrated (up to 80%). Furthermore, we show that outdoor temperature (varying over time) positively impacts the prediction performance of thermal comfort models by up to 30%. The importance of spatio-temporal context is demonstrated by contrasting micro-level (location specific) and macro-level (6 locations across a city) performance. The most important finding of this work is that a definitive improvement in prediction accuracy is shown with an increase in the time of day and sky illuminance, for multiple thermal comfort metrics.
翻訳日:2022-08-23 12:40:42 公開日:2022-08-20
# 図形因果モデルに基づくデータ駆動因果効果の推定:調査

Data-Driven Causal Effect Estimation Based on Graphical Causal Modelling: A Survey ( http://arxiv.org/abs/2208.09590v1 )

ライセンス: Link先を確認
Debo Cheng and Jiuyong Li and Lin Liu, Jixue Liu, and Thuc Duy Le(参考訳) 科学研究や実世界の多くの分野において、非実験データからの因果効果の偏りのない推定は、データの根底にあるメカニズムを理解し、効果的な反応や介入の意思決定に不可欠である。 異なる角度からこの挑戦的な問題について、多くの研究がなされている。 データにおける因果効果の推定には、マルコフ特性、忠実性、因果満足性などの仮定が常に作成される。 仮定の下では、共変量の集合や基礎となる因果グラフのような完全な知識が依然として必要である。 実用的な課題は、多くのアプリケーションでは、そのような完全な知識や部分的な知識しか利用できないことである。 近年,グラフィカルな因果モデルに基づく探索戦略を用いて,因果効果推定のためのデータから有用な知識を探索する研究が行われている。 本稿では,この手法を概観し,データ駆動型手法が直面する課題に注目する。 本稿では,データ駆動型手法の前提,強み,限界について論じる。 このレビューにより、より多くの研究者が、因果効果推定の難しい問題に対する、グラフィカルな因果モデリングに基づくより良いデータ駆動メソッドを設計する動機となることを期待している。

In many fields of scientific research and real-world applications, unbiased estimation of causal effects from non-experimental data is crucial for understanding the mechanism underlying the data and for decision-making on effective responses or interventions. A great deal of research has been conducted on this challenging problem from different angles. For causal effect estimation in data, assumptions such as Markov property, faithfulness and causal sufficiency are always made. Under the assumptions, full knowledge such as, a set of covariates or an underlying causal graph, is still required. A practical challenge is that in many applications, no such full knowledge or only some partial knowledge is available. In recent years, research has emerged to use a search strategy based on graphical causal modelling to discover useful knowledge from data for causal effect estimation, with some mild assumptions, and has shown promose in tackling the practical challenge. In this survey, we review the methods and focus on the challenges the data-driven methods face. We discuss the assumptions, strengths and limitations of the data-driven methods. We hope this review will motivate more researchers to design better data-driven methods based on graphical causal modelling for the challenging problem of causal effect estimation.
翻訳日:2022-08-23 12:30:00 公開日:2022-08-20
# 不均衡学習のための新しいハイブリッドサンプリングフレームワーク

A Novel Hybrid Sampling Framework for Imbalanced Learning ( http://arxiv.org/abs/2208.09619v1 )

ライセンス: Link先を確認
Asif Newaz, Farhan Shahriyar Haq(参考訳) クラス不均衡は分類タスクにおいて頻繁に発生するシナリオである。 不均衡なデータから学ぶことは大きな課題となり、この分野で多くの研究が進められている。 サンプリング技術を用いたデータの前処理は、データに存在する不均衡に対処する標準的なアプローチである。 標準的な分類アルゴリズムは不均衡なデータではうまく動作しないため、データセットはトレーニング前に適切にバランスを取る必要がある。 これは少数派をオーバーサンプリングするか、多数派をアンサンプすることで達成できる。 本研究では,新しいハイブリッドサンプリングアルゴリズムを提案する。 保持されたサンプルデータセットの品質を確保しつつ,サンプリング手法の限界を克服するために,3つの異なるサンプリング手法を適切に組み合わせた高度なフレームワークを開発した。 最初に近所の清掃規則を適用して不均衡を低減させる。 ランダムアンダーサンプリングはSMOTEアルゴリズムと戦略的に結合され、データセットの最適なバランスを得る。 この手法は「SMOTE-RUS-NC」と呼ばれ、他の最先端サンプリング手法と比較されている。 この戦略は、より堅牢な分類アルゴリズム「SRN-BRF」を得るために、アンサンブル学習フレームワークにさらに組み込まれている。 不均衡の程度が異なる26の不均衡データセットで厳密な実験が行われた。 事実上全てのデータセットにおいて、提案された2つのアルゴリズムは既存のサンプリング戦略よりも優れている。 特に、一般的なサンプリング技術が完全に失敗する高度に不均衡なデータセットでは、非並列のパフォーマンスを達成した。 その結果, 提案モデルの有効性と, 不均衡領域における強力なサンプリングアルゴリズムの可能性が示された。

Class imbalance is a frequently occurring scenario in classification tasks. Learning from imbalanced data poses a major challenge, which has instigated a lot of research in this area. Data preprocessing using sampling techniques is a standard approach to deal with the imbalance present in the data. Since standard classification algorithms do not perform well on imbalanced data, the dataset needs to be adequately balanced before training. This can be accomplished by oversampling the minority class or undersampling the majority class. In this study, a novel hybrid sampling algorithm has been proposed. To overcome the limitations of the sampling techniques while ensuring the quality of the retained sampled dataset, a sophisticated framework has been developed to properly combine three different sampling techniques. Neighborhood Cleaning rule is first applied to reduce the imbalance. Random undersampling is then strategically coupled with the SMOTE algorithm to obtain an optimal balance in the dataset. This proposed hybrid methodology, termed "SMOTE-RUS-NC", has been compared with other state-of-the-art sampling techniques. The strategy is further incorporated into the ensemble learning framework to obtain a more robust classification algorithm, termed "SRN-BRF". Rigorous experimentation has been conducted on 26 imbalanced datasets with varying degrees of imbalance. In virtually all datasets, the proposed two algorithms outperformed existing sampling strategies, in many cases by a substantial margin. Especially in highly imbalanced datasets where popular sampling techniques failed utterly, they achieved unparalleled performance. The superior results obtained demonstrate the efficacy of the proposed models and their potential to be powerful sampling algorithms in imbalanced domain.
翻訳日:2022-08-23 12:29:41 公開日:2022-08-20
# 畳み込みニューラルネットワークを用いた外部分布12誘導ECG分類のための領域一般化手法

A Domain Generalization Approach for Out-Of-Distribution 12-lead ECG Classification with Convolutional Neural Networks ( http://arxiv.org/abs/2208.09656v1 )

ライセンス: Link先を確認
Aristotelis Ballas and Christos Diou(参考訳) ディープラーニングシステムはここ数年で大きな成功を収め、いくつかのケースで人間の知性を超えている。 最近では、バイオメディカルやヘルスケアの分野にも進出しており、多くの可能性を秘めているが、まだ広く普及していない。 これは、ほとんどのメソッドが、トレーニングされたデータ、すなわちout-Of-Distribution(OOD)データとは異なるディストリビューションから派生したデータに関する決定を行うように呼ばれたとき、パフォーマンスを維持できないためである。 例えば、生体信号分類の場合、モデルでは、異なるデータソース間の分布の不一致のために、異なる病院のデータセットをうまく一般化できないことが多い。 本研究の目的は, 病院データベース間の領域一般化問題を実証し, ディープニューラルネットワークのアーキテクチャ全体にわたって抽出された情報を活用し, 信号の基盤構造を把握し, 心電図の異常を分類する手法を提案することである。 この目的のために、バックボーンモデルとしてResNet-18を採用し、ネットワークのいくつかの中間畳み込み層から特徴を抽出する。 提案手法を評価するために,4つのソースから利用可能なecgデータセットを採用し,それらを別々のドメインとして扱う。 実世界の設定に存在する分布シフトをシミュレートするために、ドメインのサブセットでモデルをトレーニングし、残りのものを除外します。 そして、トレーニング時間(イントラ分配)と保持データ(アウト・オブ・ディストリビューション)の両方でモデルを評価し、有望な結果を得るとともに、ほとんどの場合においてバニラ残差ネットワークのベースラインを上回った。

Deep Learning systems have achieved great success in the past few years, even surpassing human intelligence in several cases. As of late, they have also established themselves in the biomedical and healthcare domains, where they have shown a lot of promise, but have not yet achieved widespread adoption. This is in part due to the fact that most methods fail to maintain their performance when they are called to make decisions on data that originate from a different distribution than the one they were trained on, namely Out-Of-Distribution (OOD) data. For example, in the case of biosignal classification, models often fail to generalize well on datasets from different hospitals, due to the distribution discrepancy amongst different sources of data. Our goal is to demonstrate the Domain Generalization problem present between distinct hospital databases and propose a method that classifies abnormalities on 12-lead Electrocardiograms (ECGs), by leveraging information extracted across the architecture of a Deep Neural Network, and capturing the underlying structure of the signal. To this end, we adopt a ResNet-18 as the backbone model and extract features from several intermediate convolutional layers of the network. To evaluate our method, we adopt publicly available ECG datasets from four sources and handle them as separate domains. To simulate the distributional shift present in real-world settings, we train our model on a subset of the domains and leave-out the remaining ones. We then evaluate our model both on the data present at training time (intra-distribution) and the held-out data (out-of-distribution), achieving promising results and surpassing the baseline of a vanilla Residual Network in most of the cases.
翻訳日:2022-08-23 12:29:20 公開日:2022-08-20
# MLExchange -- 交換可能な機械学習ワークフローを実現するWebベースのプラットフォーム

MLExchange -- A web-based platform enabling exchangeable machine learning workflows ( http://arxiv.org/abs/2208.09751v1 )

ライセンス: Link先を確認
Zhuowen Zhao, Tanny Chavez, Elizabeth Holman, Guanhua Hao, Adam Green, Harinarayan Krishnan, Dylan McReynolds, Ronald Pandolfi, Eric J. Roberts, Petrus H. Zwart, Howard Yanxon, Nicholas Schwarz, Subramanian Sankaranarayanan, Sergei V. Kalinin, Apurva Mehta, Stuart Campbel, Alexander Hexemer(参考訳) 機械学習(ML)アルゴリズムは、さまざまな分野や機関にわたる科学コミュニティが大規模で多様なデータ問題に対処するのを助ける傾向を示している。 しかし、多くの利用可能なMLツールはプログラム的に要求され、計算コストがかかる。 MLExchangeプロジェクトは、MLと計算リソースを科学的な発見に利用するために、深遠なMLバックグラウンドを持たない科学者や施設のユーザに提供するツールを備えた共同プラットフォームを構築することを目的としている。 高いレベルでは、MLアルゴリズムやワークフロー、データの管理と交換をWebアプリケーションで簡単に行えるような、完全なユーザエクスペリエンスをターゲットにしています。 これまでのところ、中央のジョブマネージャ、集中型コンテンツレジストリ、ユーザポータル、検索エンジンという4つの主要なコンポーネントを構築し、これらのコンポーネントをテストサーバにうまくデプロイしました。 各コンポーネントは独立したコンテナであるため、ラップトップ(通常は単一ユーザ)から、多くのユーザによって(同時に)アクセスされたハイパフォーマンスクラスタ(HPC)まで、プラットフォーム全体または個々のサービス(s)は、さまざまなスケールのサーバに簡単にデプロイできる。 ユーザはリモートサーバからサービスやリソースにアクセスしたり、プラットフォーム全体や個々のサービスをローカルネットワーク内で実行したりすることができる。

Machine learning (ML) algorithms are showing a growing trend in helping the scientific communities across different disciplines and institutions to address large and diverse data problems. However, many available ML tools are programmatically demanding and computationally costly. The MLExchange project aims to build a collaborative platform equipped with enabling tools that allow scientists and facility users who do not have a profound ML background to use ML and computational resources in scientific discovery. At the high level, we are targeting a full user experience where managing and exchanging ML algorithms, workflows, and data are readily available through web applications. So far, we have built four major components, i.e, the central job manager, the centralized content registry, user portal, and search engine, and successfully deployed these components on a testing server. Since each component is an independent container, the whole platform or its individual service(s) can be easily deployed at servers of different scales, ranging from a laptop (usually a single user) to high performance clusters (HPC) accessed (simultaneously) by many users. Thus, MLExchange renders flexible using scenarios -- users could either access the services and resources from a remote server or run the whole platform or its individual service(s) within their local network.
翻訳日:2022-08-23 12:28:51 公開日:2022-08-20
# 広告における説得戦略:データセット、モデリング、ベースライン

Persuasion Strategies in Advertisements: Dataset, Modeling, and Baselines ( http://arxiv.org/abs/2208.09626v1 )

ライセンス: Link先を確認
Yaman Kumar Singla, Rajat Jha, Arunim Gupta, Milan Aggarwal, Aditya Garg, Ayush Bhardwaj, Tushar, Balaji Krishnamurthy, Rajiv Ratn Shah, and Changyou Chen(参考訳) 広告を説得力のあるもの、すなわち消費者から望ましい反応を引き出すことをモデル化することは、プロパガンダ、社会心理学、マーケティングの研究に不可欠である。 その重要性にもかかわらず、コンピュータビジョンにおける説得の計算モデルはまだ初期段階にあり、主に広告に関連する説得ストラテジーラベルを提供するベンチマークデータセットが欠如している。 社会心理学とマーケティングにおける説得文学に動機づけられ,説得戦略の広範な語彙を導入し,説得戦略を付した最初の広告画像コーパスを構築する。 次に,マルチモーダル学習による説得戦略予測のタスクを定式化し,他のad-understandingタスクを活用して説得戦略を予測するマルチタスクアテンション融合モデルを設計する。 さらに,30のFortune-500企業の1600件の広告キャンペーンについて実世界のケーススタディを行い,モデルの予測を用いて,異なる人口層(年齢と性別)でどの戦略が機能するかを分析する。 データセットはまた、テストスプリット上の対応する広告画像に説得戦略をラベル付けするイメージセグメンテーションマスクも提供する。 コードとデータセット https://midas-research.github.io/persuasion-advertisements/ を公開しています。

Modeling what makes an advertisement persuasive, i.e., eliciting the desired response from consumer, is critical to the study of propaganda, social psychology, and marketing. Despite its importance, computational modeling of persuasion in computer vision is still in its infancy, primarily due to the lack of benchmark datasets that can provide persuasion-strategy labels associated with ads. Motivated by persuasion literature in social psychology and marketing, we introduce an extensive vocabulary of persuasion strategies and build the first ad image corpus annotated with persuasion strategies. We then formulate the task of persuasion strategy prediction with multi-modal learning, where we design a multi-task attention fusion model that can leverage other ad-understanding tasks to predict persuasion strategies. Further, we conduct a real-world case study on 1600 advertising campaigns of 30 Fortune-500 companies where we use our model's predictions to analyze which strategies work with different demographics (age and gender). The dataset also provides image segmentation masks, which labels persuasion strategies in the corresponding ad images on the test split. We publicly release our code and dataset https://midas-research.github.io/persuasion-advertisements/.
翻訳日:2022-08-23 12:25:04 公開日:2022-08-20
# 視覚環境における学習 : レビュー,分析,新たな展望

Learning in Audio-visual Context: A Review, Analysis, and New Perspective ( http://arxiv.org/abs/2208.09579v1 )

ライセンス: Link先を確認
Yake Wei, Di Hu, Yapeng Tian, Xuelong Li(参考訳) 視線と聴覚は、人間のコミュニケーションとシーン理解において重要な役割を果たす2つの感覚である。 近年,人間の知覚能力の模倣として,音声と視覚の両面から学習する計算手法の開発をめざした視覚学習が盛んに行われている。 視聴覚分野の研究を体系的に整理・分析できる総合的な調査が期待される。 音声・視覚認知基盤の分析から始め,我々の計算研究に影響を与えた重要な発見をいくつか紹介する。 次に,近年の音声・視覚学習研究を体系的にレビューし,これらを3つのカテゴリに分けた。 そこで本研究では,音声・視覚データのセマンティック,空間的,時間的支援の整合性について検討した。 よりマクロな視点から、音声視覚学習分野の現況を振り返り、さらに、音声視覚シーン理解の新しい視点を提案し、さらに、音声視覚学習領域の将来的な方向性について論じ、分析する。 概して、この調査は、現在のオーディオとビジュアルの学習分野を異なる側面からレビューし、展望する。 研究者にこの領域をより深く理解してもらいたい。 常に更新される調査を含むwebサイトがリリースされた。 \url{https://gewu-lab.github.io/audio-visual-learning/}。

Sight and hearing are two senses that play a vital role in human communication and scene understanding. To mimic human perception ability, audio-visual learning, aimed at developing computational approaches to learn from both audio and visual modalities, has been a flourishing field in recent years. A comprehensive survey that can systematically organize and analyze studies of the audio-visual field is expected. Starting from the analysis of audio-visual cognition foundations, we introduce several key findings that have inspired our computational studies. Then, we systematically review the recent audio-visual learning studies and divide them into three categories: audio-visual boosting, cross-modal perception and audio-visual collaboration. Through our analysis, we discover that, the consistency of audio-visual data across semantic, spatial and temporal support the above studies. To revisit the current development of the audio-visual learning field from a more macro view, we further propose a new perspective on audio-visual scene understanding, then discuss and analyze the feasible future direction of the audio-visual learning area. Overall, this survey reviews and outlooks the current audio-visual learning field from different aspects. We hope it can provide researchers with a better understanding of this area. A website including constantly-updated survey is released: \url{https://gewu-lab.github.io/audio-visual-learning/}.
翻訳日:2022-08-23 12:24:21 公開日:2022-08-20
# MemoNav:ビジュアルナビゲーションのためのインフォームティブメモリの選択

MemoNav: Selecting Informative Memories for Visual Navigation ( http://arxiv.org/abs/2208.09610v1 )

ライセンス: Link先を確認
Hongxin Li, Xu Yang, Yuran Yang, Shuqi Mei, Zhaoxiang Zhang(参考訳) イメージゴールナビゲーションは、エージェントが以前見えなかったシーンで画像によって示されるターゲットにナビゲートする必要があるため、難しい作業である。 現在の手法では、この課題を解決するためにナビゲーション履歴を保存する多様なメモリ機構が導入されている。 しかし、これらの手法は、どの部分のメモリが情報的であるかを考慮せずに、ナビゲーションアクションを生成するためにメモリ内のすべての観測を使用する。 この制限に対処するために,マルチゴールタスクにおけるナビゲーション性能を向上させるために,エージェントの情報的短期記憶と長期記憶を保持できる,イメージゴールナビゲーションのための新しいメモリ機構であるMemoNavを提案する。 エージェントのトポロジマップ上のノード機能は、これらの機能が動的に更新されるため、短期記憶に格納される。 短期記憶を支援するため、グラフアテンションモジュールを介して短期記憶を連続的に集約することにより、長期記憶を生成する。 MemoNavは、Transformerデコーダをベースとした忘れモジュールを通じて、短期メモリの情報的部分を保持し、この保持された短期メモリと長期メモリをワーキングメモリに組み込む。 最後に、エージェントはアクション生成にワーキングメモリを使用する。 我々は、新しいマルチゴールナビゲーションデータセットでモデルを評価する。 実験の結果,MemoNavは航法履歴の少ない大きなマージンでSoTA法よりも優れていた。 この結果は、我々のモデルはデッドロックに閉じ込められにくく、また、memonavが冗長なステップを減らすことでエージェントのナビゲーション効率を向上させることをさらに検証していることを示している。

Image-goal navigation is a challenging task, as it requires the agent to navigate to a target indicated by an image in a previously unseen scene. Current methods introduce diverse memory mechanisms which save navigation history to solve this task. However, these methods use all observations in the memory for generating navigation actions without considering which fraction of this memory is informative. To address this limitation, we present the MemoNav, a novel memory mechanism for image-goal navigation, which retains the agent's informative short-term memory and long-term memory to improve the navigation performance on a multi-goal task. The node features on the agent's topological map are stored in the short-term memory, as these features are dynamically updated. To aid the short-term memory, we also generate long-term memory by continuously aggregating the short-term memory via a graph attention module. The MemoNav retains the informative fraction of the short-term memory via a forgetting module based on a Transformer decoder and then incorporates this retained short-term memory and the long-term memory into working memory. Lastly, the agent uses the working memory for action generation. We evaluate our model on a new multi-goal navigation dataset. The experimental results show that the MemoNav outperforms the SoTA methods by a large margin with a smaller fraction of navigation history. The results also empirically show that our model is less likely to be trapped in a deadlock, which further validates that the MemoNav improves the agent's navigation efficiency by reducing redundant steps.
翻訳日:2022-08-23 12:24:01 公開日:2022-08-20
# アーティファクトに基づく皮膚病変モデルのドメイン一般化

Artifact-Based Domain Generalization of Skin Lesion Models ( http://arxiv.org/abs/2208.09756v1 )

ライセンス: Link先を確認
Alceu Bissoto, Catarina Barata, Eduardo Valle, Sandra Avila(参考訳) 深層学習の失敗事例は、特に医療分野において豊富である。 分布外一般化の最近の研究は、よく制御された合成データセットでかなり進歩しているが、医療画像の文脈を表すものではない。 本稿では,皮膚病変解析の難易度を評価するために,アーティファクトアノテーションに依存したパイプラインを提案する。 まず、偏見のあるトレーニングとテストセットのレベルにデータを分割し、より優れた一般化評価を行う。 次に,皮膚病変のアーティファクトに基づいた環境を作成し,ドメインの一般化を可能にする。 最後に,ロバストなトレーニングを行った後,テスト時のデバイアス処理を行い,推論画像のスプリアスな特徴を低減した。 実験の結果、パイプラインはバイアスのあるケースのパフォーマンス指標を改善し、説明方法を使用するとアーティファクトを避けます。 しかし, 分布域外データを用いた評価では, 臨床的に有意な特徴は好まなかった。 代わりに、パフォーマンスはトレーニングの類似したアーティファクトを示すテストセットで改善され、既知のアーティファクトセットを無視したモデルが提案された。 以上の結果から, 単一側面に対する脱バイアスモデルでは, 公正な皮膚病変解析には不十分である可能性が示唆された。

Deep Learning failure cases are abundant, particularly in the medical area. Recent studies in out-of-distribution generalization have advanced considerably on well-controlled synthetic datasets, but they do not represent medical imaging contexts. We propose a pipeline that relies on artifacts annotation to enable generalization evaluation and debiasing for the challenging skin lesion analysis context. First, we partition the data into levels of increasingly higher biased training and test sets for better generalization assessment. Then, we create environments based on skin lesion artifacts to enable domain generalization methods. Finally, after robust training, we perform a test-time debiasing procedure, reducing spurious features in inference images. Our experiments show our pipeline improves performance metrics in biased cases, and avoids artifacts when using explanation methods. Still, when evaluating such models in out-of-distribution data, they did not prefer clinically-meaningful features. Instead, performance only improved in test sets that present similar artifacts from training, suggesting models learned to ignore the known set of artifacts. Our results raise a concern that debiasing models towards a single aspect may not be enough for fair skin lesion analysis.
翻訳日:2022-08-23 12:23:35 公開日:2022-08-20
# マルチエンコーダ融合戦略を用いたパーソナライズ応答選択の改善

Using Multi-Encoder Fusion Strategies to Improve Personalized Response Selection ( http://arxiv.org/abs/2208.09601v1 )

ライセンス: Link先を確認
Souvik Das, Sougata Saha, Rohini K. Srihari(参考訳) パーソナライズされた応答選択システムは一般的にペルソナに基づく。 しかし、これらのシステムでは十分に調査されていないペルソナと共感の相関関係が存在する。 また、矛盾またはオフトピック応答が選択されると、会話コンテキストに対する忠実さが低下する。 本稿では,人格,感情,発話情報との相互作用を捉えた融合戦略の組を提案することで,これらの課題に対処しようとする。 Persona-Chatデータセットのアブレーション研究は、感情と包含を取り入れることで、応答選択の精度が向上することを示している。 我々は,hiss@1 (top-1 accuracy)の点で,従来の手法を2.3パーセント以上,修正済みペルソナを1.9パーセント上回るマージンで上回り,ペルソナチャットデータセットにおける新たな最先端性能を達成するために,融合戦略と概念フローエンコーディングを組み合わせる。

Personalized response selection systems are generally grounded on persona. However, there exists a co-relation between persona and empathy, which is not explored well in these systems. Also, faithfulness to the conversation context plunges when a contradictory or an off-topic response is selected. This paper attempts to address these issues by proposing a suite of fusion strategies that capture the interaction between persona, emotion, and entailment information of the utterances. Ablation studies on the Persona-Chat dataset show that incorporating emotion and entailment improves the accuracy of response selection. We combine our fusion strategies and concept-flow encoding to train a BERT-based model which outperforms the previous methods by margins larger than 2.3 % on original personas and 1.9 % on revised personas in terms of hits@1 (top-1 accuracy), achieving a new state-of-the-art performance on the Persona-Chat dataset.
翻訳日:2022-08-23 12:18:12 公開日:2022-08-20
# スパンによる知識表現:情報抽出のための知識強化モデル

Representing Knowledge by Spans: A Knowledge-Enhanced Model for Information Extraction ( http://arxiv.org/abs/2208.09625v1 )

ライセンス: Link先を確認
Jiacheng Li, Yannis Katsis, Tyler Baldwin, Ho-Cheol Kim, Andrew Bartko, Julian McAuley, Chun-Nan Hsu(参考訳) 言語表現のための知識強化事前学習モデルは、BERTのような言語モデルよりも知識ベース構築タスク(つまり関係抽出)において効果的であることが示されている。 これらの知識強化言語モデルは、知識を事前学習に取り入れ、エンティティや関係の表現を生成する。 しかし、既存のメソッドは通常、別々の埋め込みで各エンティティを表現する。 その結果、これらのメソッドは、基盤となるトークンモデル(すなわち、トランスフォーマー)の上に、ボキャブラリなエンティティと大量のパラメータを表現するのに苦労し、メモリの制約のために処理可能なエンティティの数は実際には限られている。 さらに、既存のモデルはエンティティとリレーションを同時に表現するのに苦労しています。 これらの問題に対処するために,本稿では,エンティティ表現とトークンスパンとスパンペアの関係をそれぞれ学習する新しい事前学習モデルを提案する。 spanをspanモジュールで効率的にエンコードすることで、エンティティとそれらの関係を表現できますが、既存のモデルよりもパラメータは少なくなります。 我々は,wikipediaから抽出した知識グラフを用いてモデルを事前学習し,教師なしおよび教師なしの情報抽出タスクでテストした。 その結果、ベースラインよりもエンティティとリレーションの両方の表現が優れており、教師付き設定ではRoBERTaの精度が一貫して向上し、情報抽出タスクにおける競合的な結果が得られます。

Knowledge-enhanced pre-trained models for language representation have been shown to be more effective in knowledge base construction tasks (i.e.,~relation extraction) than language models such as BERT. These knowledge-enhanced language models incorporate knowledge into pre-training to generate representations of entities or relationships. However, existing methods typically represent each entity with a separate embedding. As a result, these methods struggle to represent out-of-vocabulary entities and a large amount of parameters, on top of their underlying token models (i.e.,~the transformer), must be used and the number of entities that can be handled is limited in practice due to memory constraints. Moreover, existing models still struggle to represent entities and relationships simultaneously. To address these problems, we propose a new pre-trained model that learns representations of both entities and relationships from token spans and span pairs in the text respectively. By encoding spans efficiently with span modules, our model can represent both entities and their relationships but requires fewer parameters than existing models. We pre-trained our model with the knowledge graph extracted from Wikipedia and test it on a broad range of supervised and unsupervised information extraction tasks. Results show that our model learns better representations for both entities and relationships than baselines, while in supervised settings, fine-tuning our model outperforms RoBERTa consistently and achieves competitive results on information extraction tasks.
翻訳日:2022-08-23 12:17:53 公開日:2022-08-20
# SemEval-2022 Task 8: Multi-lingual News Article similarity

SemEval-2022 Task 8: Multi-lingual News Article Similarity ( http://arxiv.org/abs/2208.09715v1 )

ライセンス: Link先を確認
Nikhil Goel and Ranjith Reddy(参考訳) この研究は、一対のニュース記事の類似性を見つけることである。 データセットには7つの異なる目的的類似度指標があり、ニュース記事は複数の言語で提供されている。 学習済みの埋め込みモデルに加えて,ベースライン結果に対するコサイン類似度を算出し,その上にフィードフォワードニューラルネットワークをトレーニングし,結果の改善を行った。 また、機能抽出のための類似度メトリック毎に、別々にパイプラインを構築しました。 特徴抽出とフィードフォワードニューラルネットワークによるベースライン結果の大幅な改善が期待できる。

This work is about finding the similarity between a pair of news articles. There are seven different objective similarity metrics provided in the dataset for each pair and the news articles are in multiple different languages. On top of the pre-trained embedding model, we calculated cosine similarity for baseline results and feed-forward neural network was then trained on top of it to improve the results. We also built separate pipelines for each similarity metric for feature extraction. We could see significant improvement from baseline results using feature extraction and feed-forward neural network.
翻訳日:2022-08-23 12:17:29 公開日:2022-08-20
# トランスフォーマーを用いた意味フルエンシーの認知モデル

Cognitive Modeling of Semantic Fluency Using Transformers ( http://arxiv.org/abs/2208.09719v1 )

ライセンス: Link先を確認
Animesh Nighojkar, Anna Khlyzova, John Licato(参考訳) 深層言語モデルは人間の認知の説明モデルとなるか? もしそうなら、その限界は何でしょう? そこで本研究では,認知行動プロファイルの個別化記述子を見つけるために,予測的ハイパーパラメータチューニングを用いたハイパーパラメータ仮説法を提案する。 本研究では,トランスフォーマーベース言語モデル(TLM)を用いてモデル化されたことのない認知科学の課題であるセマンティック・フラエンシ・タスク(SFT)において,人間のパフォーマンスを予測することによって,このアプローチの第一歩を踏み出す。 タスク設定では、SFTを実行する個人が次に発する単語を予測するためのいくつかのアプローチを比較する。 我々は、人やTLMが言語を学習し、使用する方法に明らかな実装上の違いがあるにもかかわらず、TLMは、既存の計算モデルよりも優れた人間の流用タスクの振る舞いの個人差を特定するために使用することができ、人間の記憶検索戦略に関する洞察を与える可能性があることを示唆する予備的な証拠を報告する。 最後に,本研究が知識表現の認知的モデリングに与える影響について考察する。

Can deep language models be explanatory models of human cognition? If so, what are their limits? In order to explore this question, we propose an approach called hyperparameter hypothesization that uses predictive hyperparameter tuning in order to find individuating descriptors of cognitive-behavioral profiles. We take the first step in this approach by predicting human performance in the semantic fluency task (SFT), a well-studied task in cognitive science that has never before been modeled using transformer-based language models (TLMs). In our task setup, we compare several approaches to predicting which word an individual performing SFT will utter next. We report preliminary evidence suggesting that, despite obvious implementational differences in how people and TLMs learn and use language, TLMs can be used to identify individual differences in human fluency task behaviors better than existing computational models, and may offer insights into human memory retrieval strategies -- cognitive process not typically considered to be the kinds of things TLMs can model. Finally, we discuss the implications of this work for cognitive modeling of knowledge representations.
翻訳日:2022-08-23 12:17:22 公開日:2022-08-20
# 早期誤情報検出のための対照的なドメイン適応 : COVID-19を事例として

Contrastive Domain Adaptation for Early Misinformation Detection: A Case Study on COVID-19 ( http://arxiv.org/abs/2208.09578v1 )

ライセンス: Link先を確認
Zhenrui Yue, Huimin Zeng, Ziyi Kou, Lanyu Shang, Dong Wang(参考訳) 誤情報検出システムの性能向上の最近の進展にもかかわらず、未発見領域における誤情報の分類はいまだに難しい課題である。 この問題に対処する一般的なアプローチは、ドメイン批判を導入し、ドメイン不変の入力機能を促進することである。 しかし、初期の誤情報は、既存の誤情報データ(新型コロナウイルスデータセットのクラス不均衡など)に対する条件とラベルのシフトの両方をしばしば示しており、早期の誤情報検出にはあまり効果がない。 本稿では,早期誤情報検出(CANMD)のためのコントラスト適応ネットワークを提案する。 具体的には,疑似ラベリングを利用して,ソースデータとの合同トレーニングのための高信頼なターゲット例を生成する。 さらに、ソースドメインとターゲットドメイン間のラベルシフト(すなわちクラスプリエント)を推定および修正するためのラベル補正コンポーネントも設計する。 さらに、対向的な適応損失を目的関数に統合し、クラス内不一致を減少させ、クラス間不一致を増大させる。 そのため、適応モデルは、対象データ分布の推定を改善するために、両方の領域にまたがる修正されたクラス事前と不変条件分布を学習する。 提案するcanmdの有効性を示すために,covid-19早期情報検出の事例を調査し,複数の実世界データセットを用いた広範囲な実験を行った。 その結果、canmdは偽情報検出システムを未発見の新型コロナウイルスターゲットドメインに効果的に適用でき、最先端のベースラインと比較して大幅に改善できることが示唆された。

Despite recent progress in improving the performance of misinformation detection systems, classifying misinformation in an unseen domain remains an elusive challenge. To address this issue, a common approach is to introduce a domain critic and encourage domain-invariant input features. However, early misinformation often demonstrates both conditional and label shifts against existing misinformation data (e.g., class imbalance in COVID-19 datasets), rendering such methods less effective for detecting early misinformation. In this paper, we propose contrastive adaptation network for early misinformation detection (CANMD). Specifically, we leverage pseudo labeling to generate high-confidence target examples for joint training with source data. We additionally design a label correction component to estimate and correct the label shifts (i.e., class priors) between the source and target domains. Moreover, a contrastive adaptation loss is integrated in the objective function to reduce the intra-class discrepancy and enlarge the inter-class discrepancy. As such, the adapted model learns corrected class priors and an invariant conditional distribution across both domains for improved estimation of the target data distribution. To demonstrate the effectiveness of the proposed CANMD, we study the case of COVID-19 early misinformation detection and perform extensive experiments using multiple real-world datasets. The results suggest that CANMD can effectively adapt misinformation detection systems to the unseen COVID-19 target domain with significant improvements compared to the state-of-the-art baselines.
翻訳日:2022-08-23 12:13:54 公開日:2022-08-20
# 分解読解によるトリガーフリーイベント検出

Trigger-free Event Detection via Derangement Reading Comprehension ( http://arxiv.org/abs/2208.09659v1 )

ライセンス: Link先を確認
Jiachen Zhao, Haiqin Yang(参考訳) イベント検出(ed、event detection)は、テキストからイベントを検出し、それらを分類することを目的としている。 しかし、主流のイベント検出モデルでは、人為的なトリガーアノテーションが要求されるため、しばしばコストがかかり、新しいドメインへのEDの適用が抑えられる。 そこで本稿では, トリガを伴わない低リソースEDに着目し, マルチラベル分類, 不十分な手がかり, 不均衡なイベント分布といった課題に対処する。 本稿では, 機械読解 (DRC) フレームワーク上での分散機構によるトリガフリーED手法を提案する。 より具体的には、入力テキストをコンテキストとして扱い、省略されたデフォルト質問の回答と見なされるすべてのイベント型トークンに結合します。 そこで、事前学習された言語モデルにおける自己注意を利用して、入力テキストとイベントタイプ間の意味関係を吸収する。 さらに,大規模なイベントが過度に学習されることを防止し,よりバランスの取れたトレーニングプロセスを実現するために,シンプルなイベント分散モジュール(EDM)を設計する。 実験の結果,提案したトリガフリーEDモデルは主流のトリガベースモデルと極めて競合し,低ソースイベント検出に強い性能を示すことがわかった。

Event detection (ED), aiming to detect events from texts and categorize them, is vital to understanding actual happenings in real life. However, mainstream event detection models require high-quality expert human annotations of triggers, which are often costly and thus deter the application of ED to new domains. Therefore, in this paper, we focus on low-resource ED without triggers and aim to tackle the following formidable challenges: multi-label classification, insufficient clues, and imbalanced events distribution. We propose a novel trigger-free ED method via Derangement mechanism on a machine Reading Comprehension (DRC) framework. More specifically, we treat the input text as Context and concatenate it with all event type tokens that are deemed as Answers with an omitted default question. So we can leverage the self-attention in pre-trained language models to absorb semantic relations between input text and the event types. Moreover, we design a simple yet effective event derangement module (EDM) to prevent major events from being excessively learned so as to yield a more balanced training process. The experiment results show that our proposed trigger-free ED model is remarkably competitive to mainstream trigger-based models, showing its strong performance on low-source event detection.
翻訳日:2022-08-23 12:13:10 公開日:2022-08-20
# fuse and attend: アートとスケッチのための一般化埋め込み学習

Fuse and Attend: Generalized Embedding Learning for Art and Sketches ( http://arxiv.org/abs/2208.09698v1 )

ライセンス: Link先を確認
Ujjal Kr Dutta(参考訳) 深層埋め込み学習のアプローチは、複数のコンピュータビジョンタスクで広く成功したが、自然画像を表現するための最先端の手法は、絵画、漫画、スケッチといった他の領域の画像に対して必ずしもうまく機能する必要はない。 これは、自然画像と比較して、これらの領域間のデータの分布が大きく変化しているためである。 スケッチのようなドメインは、しばしばスパース情報ピクセルを含む。 しかし、そのようなデータ、例えば画像検索へのスケッチを利用する複数の関連アプリケーションを考えると、そのようなドメイン内のオブジェクトを認識することは重要である。 したがって、複数のドメインにまたがってうまく機能する組込み学習モデルの実現は、挑戦的なだけでなく、コンピュータビジョンにおいて重要な役割を果たす。 そこで本稿では,異なる領域にまたがって一般化することを目的とした新しい組込み学習手法を提案する。 トレーニング中、ドメインからのクエリイメージが与えられたとき、ゲート融合と注意を駆使して、(複数のドメインから)クエリオブジェクトカテゴリのセマンティクスの広範な概念を持つポジティブな例を生成します。 対照的な学習によって、ドメイン間で堅牢な表現を学ぶために、クエリの埋め込みを抽出し、ポジティブにします。 同時に、モデルに異なる意味圏(クロスドメイン)の例に対して差別的であるように教えるために、私たちは(異なるカテゴリから)負の埋め込みのプールも維持します。 本稿では,人気のあるpacデータセット(写真,アートペインティング,漫画,スケッチ)上に,ドメインベッドフレームワークを用いた手法の長所を示す。

While deep Embedding Learning approaches have witnessed widespread success in multiple computer vision tasks, the state-of-the-art methods for representing natural images need not necessarily perform well on images from other domains, such as paintings, cartoons, and sketch. This is because of the huge shift in the distribution of data from across these domains, as compared to natural images. Domains like sketch often contain sparse informative pixels. However, recognizing objects in such domains is crucial, given multiple relevant applications leveraging such data, for instance, sketch to image retrieval. Thus, achieving an Embedding Learning model that could perform well across multiple domains is not only challenging, but plays a pivotal role in computer vision. To this end, in this paper, we propose a novel Embedding Learning approach with the goal of generalizing across different domains. During training, given a query image from a domain, we employ gated fusion and attention to generate a positive example, which carries a broad notion of the semantics of the query object category (from across multiple domains). By virtue of Contrastive Learning, we pull the embeddings of the query and positive, in order to learn a representation which is robust across domains. At the same time, to teach the model to be discriminative against examples from different semantic categories (across domains), we also maintain a pool of negative embeddings (from different categories). We show the prowess of our method using the DomainBed framework, on the popular PACS (Photo, Art painting, Cartoon, and Sketch) dataset.
翻訳日:2022-08-23 12:12:03 公開日:2022-08-20
# DenseShift: 正確かつ転送可能な低ビットシフトネットワークを目指して

DenseShift: Towards Accurate and Transferable Low-Bit Shift Network ( http://arxiv.org/abs/2208.09708v1 )

ライセンス: Link先を確認
Xinlin Li, Bang Liu, Rui Heng Yang, Vanessa Courville, Chao Xing, Vahid Partovi Nia(参考訳) 低リソースのエッジデバイスにディープニューラルネットワークをデプロイするのは、リソース要件の増大が原因で難しい。 近年の研究では、計算とメモリ消費を減らすために、乗算自由ニューラルネットワークを提案する。 シフトニューラルネットワークは、これらの削減に対する最も効果的なツールの1つである。 しかし、既存の低ビットシフトネットワークは完全精度のネットワークほど正確ではなく、設計上の欠陥のため、広範囲のタスクに効率的に移行することはできない。 本稿では,以下の新デザインを活用するDenseShiftネットワークを提案する。 まず,低ビットシフトネットワークにおけるゼロウェイト値が,モデルキャパシティやモデル推論に有用でないことを示す。 そこで本研究では,モデル容量を増加させながら推論を単純化するゼロフリーシフト機構を提案する。 第2に、低ビットシフトネットワークのトレーニングにおける重量凍結問題を測定するための新しい指標を設計し、トレーニング効率を向上させるための符号スケール分解を提案する。 第3に, 伝達学習シナリオにおけるモデルの性能を向上させるために, 低分散ランダム初期化戦略を提案する。 様々なコンピュータビジョンと音声タスクについて広範な実験を行う。 実験の結果,DenseShiftネットワークは既存の低ビット乗算自由ネットワークを著しく上回り,完全精度のネットワークと競合する性能が得られることがわかった。 また、精度が低下することなく、強力な転送学習性能を示す。

Deploying deep neural networks on low-resource edge devices is challenging due to their ever-increasing resource requirements. Recent investigations propose multiplication-free neural networks to reduce computation and memory consumption. Shift neural network is one of the most effective tools towards these reductions. However, existing low-bit shift networks are not as accurate as their full precision counterparts and cannot efficiently transfer to a wide range of tasks due to their inherent design flaws. We propose DenseShift network that exploits the following novel designs. First, we demonstrate that the zero-weight values in low-bit shift networks are neither useful to the model capacity nor simplify the model inference. Therefore, we propose to use a zero-free shifting mechanism to simplify inference while increasing the model capacity. Second, we design a new metric to measure the weight freezing issue in training low-bit shift networks, and propose a sign-scale decomposition to improve the training efficiency. Third, we propose the low-variance random initialization strategy to improve the model's performance in transfer learning scenarios. We run extensive experiments on various computer vision and speech tasks. The experimental results show that DenseShift network significantly outperforms existing low-bit multiplication-free networks and can achieve competitive performance to the full-precision counterpart. It also exhibits strong transfer learning performance with no drop in accuracy.
翻訳日:2022-08-23 12:11:36 公開日:2022-08-20